亚洲爆爽丨国产真实露脸多p视频播放丨慈禧一级淫片免费放特级丨91亚洲成人丨无码国产精品一区二区色情男同丨综合人妻久久一区二区精品丨伊伊人成亚洲综合人网香丨www色婷婷丨真人抽搐一进一出gif丨草啪啪丨亚洲色图婷婷丨无尺码精品产品网站丨在线中文新版最新版在线丨青青草99丨欧美综合乱图图区乱图图区

吳賢茂:robots.txt與sitemap的運(yùn)用

日期:2013-08-09    閱讀:1876

首先我先講解一下什么是robots.txt

robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

然而很多人都知道有robots這回事,卻不知道應(yīng)該如何下手,今天我說下如何來寫robots.txt

首先你要想一下那些網(wǎng)站目錄是不想被搜索蜘蛛給抓取的,哪些是需要被抓取的,這個(gè)很重要,如果亂寫robots有可能會(huì)把屏蔽網(wǎng)站給搜索引擎收錄的。

robots.txt文件一定要寫在網(wǎng)站的根目錄上面,例如:

www.ainatec.com/robots.txt

而不能這樣

www.ainatec.com/seo/robots.txt

記得一定要在根目錄就對(duì)了,然后里面的寫法有兩條

 User-Agent: 適用下列規(guī)則的漫游器

 Disallow: 要攔截的網(wǎng)頁

 User-Agent: Googlebot(baiduspider)這個(gè)就是谷歌(百度)的蜘蛛

 Disallow: /seo

 這樣寫的意思就是說我不想google或者百度的蜘蛛來抓取我seo這個(gè)文件夾里面的東西,*的話就代表全部。

如果你建立一個(gè)空的或者不建立robots的話,該網(wǎng)站的全部內(nèi)容都會(huì)搜索引擎所收錄,然后很多人就會(huì)問了,網(wǎng)站不是被收錄的越多越好嗎?

我就打個(gè)比方吧,你的網(wǎng)站生成靜態(tài),然而之前的動(dòng)態(tài)又還在,蜘蛛就是抓取兩個(gè)同時(shí)收錄,然后搜索引擎就會(huì)認(rèn)為兩個(gè)標(biāo)題相同的文章出現(xiàn)在同一網(wǎng)站的話就會(huì)認(rèn)為你是在作弊了,有可能會(huì)被降權(quán)。

 

sitemap(網(wǎng)站地圖)

主要是因?yàn)楹芏嗑W(wǎng)站的內(nèi)容都沒有其他鏈接,為了把這些鏈接更好的連接起來,讓蜘蛛能抓取更多的資源。

如果是谷歌的話,大家可以注冊(cè)個(gè)管理員工具,生成的XML文件自己提交給谷歌,百度沒有管理員工具的話就可以通過在robots.txt里面寫Sitemap

寫法如下:

Sitemap:http://www.ainatec.com/sitemap.xml

Sitemap:http://www.ainatec.com/sitemap.txt

Sitemap:http://www.ainatec.com/sitemap.html

這三種形式都可以,一般自動(dòng)都會(huì)生成xml,如果不會(huì)生成sitemap可以去網(wǎng)上找下工具或者使用一些開源的cms都會(huì)有自帶的!

 

?