您现在的位置: 小康软件网 >> 网站首页 >> 软件教程 >> 冲浪技巧 >> 正文   当前没有通告! 
软件报道 软件新闻 安全资讯 软件教程 网络软件 网络聊天 应用软件 系统工具 多媒体类 图形图象 组网专区
编程开发 游戏娱乐 安全相关 教育教学 操作系统 冲浪技巧 办公软件 设计学院 Photoshop Dreamweaver Fireworks
网站源码 企业网站 游戏网站 新闻文章 社区论坛 上传下载 电子商务 影音娱乐 软件下载 网络工具 媒体播放
  用robots.txt探索Google Baidu隐藏的秘密   3星级
用robots.txt探索Google Baidu隐藏的秘密
[ 作者:佚名     来源:不详     点击数:     更新时间:2006-10-10     文章录入:小康
【字体: 字体颜色
                                                                                                              搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

  有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

  有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

  现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

图1

  但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

图2

  很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎?

  出于好奇,尝试了一下百度的robots.txt,比密密麻麻的Google简洁了许多,只有短短几行:

  User-agent: Baiduspider
  Disallow: /baidu

  User-agent: *
  Disallow: /shifen/dqzd.html

  第一段就不用说了,第二段也遇到了同样打不开的错误,不过,按以前的资料来看,这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表,出于某些可以理解的原因做了模糊处理。

图3

                                                                                                                                                 [1]                                                                                        
  • 上一篇文章: 网上养花乐趣多
  • 下一篇文章: IE无法打开网页的常见原因及解决
  • 发表评论   告诉好友   打印此文  收藏此页  关闭窗口  返回顶部
     最新5篇热点文章

  • 没有任何文章
  •  
     最新5篇推荐文章
     微软Office的线上对手们—...
     万网称昨晚遭黑客大规模攻...
     雅虎中国起诉360卫士不正当...
     奇虎公司就“雅虎中国起诉...
     利用绘图工具任意裁剪Powe...
     
     相 关 文 章

      网友评论:(只显示最新5条。评论内容只代表网友观点,与本站立场无关!)