搜索引擎优化在爬行，爬行，索引，包括，指什么？

发布日期：2020-05-08 来源：优橙浏览量：

摘要：爬行是什么？爬行是指搜索引擎蜘蛛从已知页面中解析链接指向的网址，然后沿着该链接发现新页面(即，链接指向的网址)的过程。当然，当蜘蛛找到新的网址时，它不会立即爬过去抓

爬行是什么？

爬行是指搜索引擎蜘蛛从已知页面中解析链接指向的网址，然后沿着该链接发现新页面(即，链接指向的网址)的过程。当然，当蜘蛛找到新的网址时，它不会立即爬过去抓取新的页面，而是将找到的网址存储在要抓取的地址库中，并且蜘蛛按照一定的顺序从地址库中提取要抓取的网址。

抓取是指搜索引擎蜘蛛从要抓取的地址库中提取要抓取的网址，访问该网址，并将读取的HTML代码存储到数据库中。蜘蛛的抓取是像浏览器一样打开这个页面，并且像用户的浏览器访问一样，它还会在服务器的原始日志中留下一个记录。

索引指的是将网址的信息分类并存储到数据库中，即索引库。当用户搜索时，搜索引擎从索引库中提取网址信息，并对其进行排序和显示。索引的英文单词是index。索引库用于搜索，因此用户可以搜索索引的网址，而没有索引的网址用户在搜索结果中看不到。

应该注意的是，所谓的“网址信息”并不局限于蜘蛛从网址上抓取的内容，还包括其他来源的信息，如外部链接、链接的锚文本等。有时，索引数据库中关于该网址的信息根本没有从该网址检索到的内容，但是搜索引擎知道该网址的存在，并且具有一些其他信息。

抓取和索引不是一回事。

我个人认为包含和索引之间没有区别。只是从搜索用户的角度来看，搜索可以找到这个网址，就是这个网址被包括在内。从搜索引擎的角度来看，网址是包括在内的，也就是说，这个网址的信息存在于索引库中。英语不包括这个单词，索引使用相同的单词索引。

放置在

页的标题信息中的meta noindex标记告诉搜索引擎不要索引该网址，即用户在搜索时找不到该网址的信息，并且该网址不会在搜索结果列表中返回。

Noindex没有告诉搜索引擎不要抓取这个网址，事实上，noindex将会工作。必须首先获取该网址。否则，搜索引擎怎么会发现页面的HTML代码中没有索引标签呢？

机器人文件是告诉搜索引擎不要抓取一些网址。请注意，这里所说的不是抓取，不是索引。诺恩德克斯正好相反。

向链接添加nofollow属性，告诉搜索引擎不要沿着链接爬行，就像链接不存在一样。请注意，nofollow只告诉蜘蛛不要抓取链接，没有说不要抓取链接指向的网址，也没有说不要索引链接指向的网址。nofollow既不禁止爬行也不禁止索引。

在概念说完之后，指出几个搜索引擎优化人员经常不理解的情况：

，也就是说，蜘蛛没有访问和抓取这个页面(例如，它被机器人禁止抓取文件)，但是这个页面有存储在索引库中的信息，用户在搜索时仍然可以看到。