為什么我們所發(fā)布的文章有很多都不收錄,自己一個字一字搞出來的內(nèi)容,還是不收錄那是為什么?搜索引擎抓取原理它經(jīng)過哪幾個過程?想必這是很多站長都有的疑問,一直摸不清蜘蛛抓取的脾氣,這里威海網(wǎng)絡(luò)公司韋恩科技還是要強(qiáng)調(diào),做任何一件事之前一定要先了解它的規(guī)則,只有了解了規(guī)則,才能更好的運(yùn)用規(guī)則。
一、蜘蛛是什么
我們把搜索引擎比喻無邊無際的網(wǎng)絡(luò)海洋,有海量的信息。“蜘蛛”就是計(jì)算機(jī)的的一套程序,專門來抓取檢索互聯(lián)網(wǎng)上的信息。“蜘蛛”也叫爬蟲和機(jī)器人,就是一套信息抓取系統(tǒng)。互聯(lián)網(wǎng)就像一張蜘蛛網(wǎng),而在這張網(wǎng)上爬取信息的,就像“蜘蛛”一樣在互聯(lián)網(wǎng)上反復(fù)地爬來爬去,不知道累的,所以叫作網(wǎng)絡(luò)蜘蛛。
二、搜索過程
當(dāng)我們在搜索框中搜索一個關(guān)鍵詞的時候,輸出的結(jié)果搜索引擎是需要經(jīng)過一些很復(fù)雜的過程才能展現(xiàn)給用戶,一般都需要經(jīng)過四個過程:抓取、過濾、建立索引和輸出結(jié)果。當(dāng)我們在搜索引擎看到的只是一結(jié)果,搜索根據(jù)各種算法,把某個關(guān)鍵詞的展現(xiàn)在首頁的{dy}位。
三、收錄過程
收錄過程就要經(jīng)過上面所說的四個過程:抓取、過濾、建立索引和輸出結(jié)果。
1、抓取
網(wǎng)站有沒有被收錄首先要看一下網(wǎng)站的蜘蛛訪問日志,看一下蜘蛛有沒有來,如果蜘蛛都沒有抓取那是不可能被收錄的。收錄的前提是要搜索引擎要來抓取,這個可以從網(wǎng)站的IIS日志里面可以看得到,也就是服務(wù)器日志,如果沒有來呢?那么就主動向搜索引擎提交,搜索引擎會派出蜘蛛來抓取網(wǎng)站,這才有可能被收錄。
2、過濾
網(wǎng)站被抓取了并不代表一定會被收錄,搜索引擎會先去判斷這個頁面的價(jià)值。蜘蛛來抓取了會把數(shù)據(jù)帶回去,放到臨時的數(shù)據(jù)庫中,再進(jìn)行過濾。過濾掉一些垃圾的內(nèi)容或者是低質(zhì)量的內(nèi)容??茨愕男畔⑹遣皇遣杉?,在互聯(lián)網(wǎng)上有大量的相同信息,它不會把你的信息建立索引。那有的人會問了,有的時候我們自己寫的文章也不會被收錄,那都是我們一個字一個字搞出來的,那難道不是一篇很好的原創(chuàng)嗎?的確是一篇不錯原創(chuàng)內(nèi)容,為什么有時不會被收錄呢?那就低質(zhì)量的內(nèi)容,低質(zhì)量的內(nèi)容看的不是你文章寫得有多么的精彩,那要看你文章是不是用戶所關(guān)注的,是不是用戶所需求的。
3、建立索引與輸出結(jié)果
通過一系列的要求,符合收錄的內(nèi)容之后建立索引,建立索引之后這個時候就是被收錄了的。當(dāng)用戶在搜索關(guān)鍵詞就會輸出結(jié)果,輸出的結(jié)果排在{dy}的,是有搜索引擎內(nèi)的各算法比如一些外鏈的tp,匹配是否相關(guān)等等的一系統(tǒng)的算法,把你的頁面排在前面。在這里收錄還有一種情況,收錄只經(jīng)過抓取再到輸出結(jié)果,中間的兩個過程是沒有經(jīng)過的,就是說抓取到馬上就收錄的。這是在什么情況下呢?那就是具有很強(qiáng)的時效性的內(nèi)容,比如新聞類的,它就具有很強(qiáng)的時效性,比效今天發(fā)生了一件特大事件給大部分的用戶所關(guān)注,所以所發(fā)布信息給抓取到了,搜索引擎會{dy}時間展現(xiàn)給用戶。這樣信息一過用戶就不會再去關(guān)注了,以后就沒有太大的價(jià)值,在里就有一個問題,用戶所關(guān)注度過了之后,搜索引擎會重新檢索這一類內(nèi)容,如果是垃圾內(nèi)容,低質(zhì)量內(nèi)容還是會給搜索引擎過濾掉的。
四、蜘蛛抓取的兩種策略
1、廣度優(yōu)先
廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這一種抓取方法速度是很快的,這是最常見的方式,因?yàn)檫@個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。
2、深度優(yōu)先
深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁面開始,一個鏈接一個鏈跟蹤下去,處理完這條路線之后再轉(zhuǎn)入一下個起始頁,繼續(xù)跟蹤鏈接。這一種方法抓取速度會比較慢一些,有可能抓著抓著就找不到回到起始頁的方向。這兩種方法只是蜘蛛抓取的策略,只作一個了解就可以了。
總結(jié):威海網(wǎng)絡(luò)公司韋恩科技認(rèn)為簡單地了解了一下“蜘蛛”是什么,搜索得出來的結(jié)果,搜索引是經(jīng)過了四個過程以及收錄的四個過程:抓取、過濾、建立索引和輸出結(jié)果。還就是蜘蛛抓取的兩種策略只作一個了解就可以了。
原文地址:http:///html/2016/xinwendongtai_0114/225.html,轉(zhuǎn)載請注明出處。