熱搜詞: 網(wǎng)絡(luò)推廣 全網(wǎng)營銷 SEO優(yōu)化 營銷型網(wǎng)站 外貿(mào)推廣
剛開始做seo優(yōu)化時(shí)很多SEOER并沒有理解爬行、抓取、索引、收錄這些概念到底指的是什么,區(qū)別在哪,noindex、nofollow、robots文件的功能又是什么。對(duì)這些seo概念沒有精準(zhǔn)理解比較容易混淆,在處理大型網(wǎng)站結(jié)構(gòu),決定什么頁面需要被抓取,什么需要被索引,哪些頁面需要禁止抓取、索引等等情況時(shí),就很難明白該怎么做。今天思億歐整理分享幾個(gè)基本、重要又比較容易混淆的seo概念。
一、爬行是什么?
爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然后沿著鏈接發(fā)現(xiàn)新頁面(也就是鏈接指向的URL)的過程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過去抓取新頁面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。
二、抓取是什么?
抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個(gè)URL,把讀取的HTML代碼存入數(shù)據(jù)庫。蜘蛛的抓取就是像瀏覽器一樣打開這個(gè)頁面,和用戶瀏覽器訪問一樣,也會(huì)在服務(wù)器原始日志中留下記錄。
三、索引是什么?
索引指的是將一個(gè)URL的信息進(jìn)行整理,存入數(shù)據(jù)庫,也就是索引庫,用戶搜索時(shí),搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。索引的英文是index。索引庫是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索結(jié)果中是看不到的。
要注意的是,所謂“一個(gè)URL的信息“,并不限于蜘蛛從URL上抓取來的內(nèi)容,還有來自其它來源的信息,如外部鏈接、鏈接的錨文字等。有的時(shí)候,索引庫中關(guān)于這個(gè)URL的的信息,根本沒有從這個(gè)URL抓取來的內(nèi)容,但搜索引擎知道這個(gè)URL的存在,并且有一些其它信息。
抓取和索引不是一回事。
四、收錄是什么?
個(gè)人覺得收錄和索引沒有區(qū)別。只不過收錄是從搜索用戶角度看的,搜索時(shí)能找到這個(gè)URL,就是這個(gè)URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個(gè)URL的信息在索引庫中存在。英文并沒有收錄這個(gè)詞,和索引用的是同一個(gè)詞index。
五、noindex的作用是什么?
頁面頭信息中放上meta noindex標(biāo)簽是告訴搜索引擎不要索引這個(gè)URL,也就是用戶搜索時(shí)找不到這個(gè)URL的信息,這個(gè)URL不會(huì)返回在搜索結(jié)果列表中。
noindex不是告訴搜索引擎不要抓取這個(gè)URL,實(shí)際上,noindex要起作用,這個(gè)URL是必須先被抓取的,不然搜索引擎怎么看到頁面HTML代碼中有noindex標(biāo)簽?zāi)兀?/span>
六、robots文件的作用是什么?
robots文件是告訴搜索引擎,某些URL不要抓取。注意,這里說的是不要抓取,沒說不要索引。和noindex是正相反的。
七、nofollow的作用是什么?
給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個(gè)鏈接爬行,就當(dāng)這個(gè)鏈接不存在。注意,nofollow只是告訴蜘蛛不要爬這個(gè)鏈接,沒有說不要抓取鏈接指向的URL,也沒有說不要索引鏈接指向的URL,nofollow既沒禁止抓取,也沒禁止索引。
概念說過后,指出幾個(gè)SEO們經(jīng)常弄不明白的情況:
八、沒有被抓取的頁面是可以被索引的
也就是說,蜘蛛沒有訪問和抓取這個(gè)頁面(比如被robots文件禁止抓取),這個(gè)頁面卻有信息存在索引庫中,用戶搜索時(shí)還能看到。
比如,淘寶整個(gè)網(wǎng)站用robots文件禁止百度蜘蛛抓取,但沒有用noindex禁止索引(如上面說的,禁止抓取后,就沒辦法禁止索引了,不抓取,就看不到noindex標(biāo)簽了),所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:

淘寶禁止百度抓取,但沒有禁止索引
百度從網(wǎng)上那么多鏈接知道淘寶首頁的存在,通過鏈接的錨文字也知道這個(gè)頁面標(biāo)題大概是淘寶之類的,當(dāng)然更知道百度口碑里的評(píng)價(jià)數(shù)。所以即使百度蜘蛛沒有抓取淘寶首頁,用戶還是能搜到,并且顯示一些百度知道的信息。
要想百度不能返回淘寶首頁該怎么辦呢?取消robots文件的禁止抓取,頁面上用noindex禁止索引。
九、被抓取的頁面是可以不被索引的
最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex后,不被索引,不會(huì)在搜索結(jié)果中返回。老頁面新加noindex也不是馬上刪除索引,還會(huì)保留索引一段時(shí)間,但不會(huì)返回在搜索結(jié)果中。
加了noindex的頁面上的鏈接是可以被跟蹤一段時(shí)間的,但時(shí)間長(zhǎng)了,有noindex的頁面搜索引擎可能就不再抓取和索引了,上面的鏈接也就無效了。
還有可能是因?yàn)轫撁鎯?nèi)容是抄襲、轉(zhuǎn)載、低質(zhì)量的,搜索引擎雖然抓取了頁面,索引過程中檢測(cè)出這些內(nèi)容問題,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先檢查原始日志,看看是否被抓取過,如果被抓取過,可能是內(nèi)容質(zhì)量問題,如果根本沒被抓取,建議先看看網(wǎng)站結(jié)構(gòu)是否有問題。
十、加了nofollow的鏈接目標(biāo)頁面可以被抓取和索引
前面說了,nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個(gè)鏈接爬,就當(dāng)這個(gè)鏈接不存在,但nofollow只對(duì)這個(gè)鏈接起作用,對(duì)別的鏈接沒作用,這個(gè)鏈接加了nofollow,不意味著別的地方就沒有正常的指向這個(gè)URL的鏈接,只要?jiǎng)e的地方出現(xiàn)了沒加nofollow的鏈接,目標(biāo)URL還是會(huì)被發(fā)現(xiàn)、抓?。僭O(shè)沒被robotx文件禁止)、索引(假設(shè)沒加noindex )。
上面這些概念和應(yīng)用在seo優(yōu)化中是很重要的但又比較容易混淆,建議多讀幾遍......
你的團(tuán)隊(duì)是否還在為關(guān)鍵詞排名頭疼?“招人太貴,自己又不會(huì),做SEO到底該不該外包?”——這是很多企業(yè)老板和市場(chǎng)負(fù)責(zé)人的真實(shí)困惑。其實(shí),與其讓團(tuán)隊(duì)在關(guān)鍵詞、外鏈和算法更新中手忙腳亂,不如把專業(yè)的事交給專業(yè)的人。今天歐陸贏銷小編就和您來聊聊,S.........
查看詳情>>