浏览数量: 1 作者: 本站编辑 发布时间: 2022-03-19 来源: 本站
搜索引擎的运行主要通过三个功能:爬虫、索引和排名。
上次,我们已经了解了爬虫,今天我们来看一看搜索引擎需要的第二个主要功能——索引。
将搜索引擎在前阶段爬取和发现的内容进行分类重组,存进索引库的过程叫做索引。页面被索引之后,如果搜索者查询的问题答案被收录索引库中,搜索引擎会将这些相关的答案网页展示在搜索结果页面。
如果我们的网站内容已经被搜索引擎抓取,那么,接下来的工作就是确保这些被抓取的页面能够编入索引。因为,网站被搜索引擎发现和抓取,并不意味着页面有机会存储在索引中。
在前面搜索引擎爬虫的介绍中,我们了解了搜索引擎如何发现我们的网页。搜索引擎爬虫在找到一个页面后,会对页面内容进行分析,被爬虫抓取到的信息都会存储在索引中。
页面内容既可以被存储也可以从索引中删除,以下是可能删除 URL 的一些主要原因:
① URL 正在返回“not found”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的(页面已移动且未设置 301 重定向)或故意的(页面已被删除并 404ed 以便将其从索引中删除)
② 该 URL 添加了 no index 元标记,添加此标记意味着搜索引擎在索引时会省略该页面。
③ 该 URL 因违反搜索引擎的网站指南而受到处罚。
④ 该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。
如果以前在 Google 索引中的网站页面突然不再显示,你可以使用URL 检查工具了解页面的状态,或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。
如果想要按照自己的要求处理网页,可以利用元指令或元标签向搜索引擎发出指令。
例如:告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要让任何链接转到此页面”。
这些指令都可以通过 HTML 页面 <head> 中的元标签或通过网页标头中的 X-Robots-Tag 执行。
元标签可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的网页内容。
以下是最常见的元标签,以及可以应用它们的情况。
index/noindex标签:搜索引擎是否需要抓取页面并保存在搜索引擎的索引中,以便后续以进行检索。
默认情况下,搜索引擎是可以索所有页面,因此没有必要使用“index”值。
如果你希望页面不要在搜索引擎结果呈现,可以选择使用“noindex”。
什么时候可以使用:
当你想从 Google 的网站索引中删去某些页面,但是又希望访问者可以访问到这些网页,可以将页面标记为“noindex”。
follow/nofollow标签:搜索引擎页面上的链接是应该被关注还是不被关注。
“关注”会导致搜索引擎关注页面上的链接并将链接转到这些 URL。
如果选择“nofollow”,搜索引擎将不会关注到带有此标签的网页,并阻止其他链接跳转转到该页面。
默认情况下,所有的页面都有“follow”标签。
什么时候可以使用:
nofollow 通常与 noindex 一起使用,用来阻止页面被索引,或阻止爬虫跟踪页面上的链接。
以下是元机器人 noindex、nofollow 标签的示例:
<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>
noarchive标签:用于限制搜索引擎保存页面的缓存副本。
默认情况下,引擎会保留已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接查看。
什么时候可以使用:
如果一个电子商务网站产品的价格经常发生变化,可以使用 noarchive元 标签防止搜索者看到之前的价格。
x-robots 标签:在URL 的 HTTP 标头中,大规模阻止某类型的内容,此标签的功能也更加灵活。
例如,
你可以排除整个文件夹或文件类型
(如 moz.com/no-bake/old-recipes-to-noindex):
<Files ~ “\/?no\-bake\/.*”> Header set X-Robots-Tag “noindex, nofollow”</Files>
也可以排除特定文件类型(如 PDF):
<Files ~ “\.pdf$”> Header set X-Robots-Tag “noindex,nofollow”</Files>
这些标签陷阱会阻止搜索引擎发现我们网站里需要展示的重要页面,了解影响爬虫和索引的不同方式有利于我们避免常见的索引指令陷阱,更深入的了解搜索引擎对网页内容的索引,清晰的掌握搜索引擎的工作原理。