搜索引擎优化工作流程的三个阶段

胡先生2022-06-18794

这是老胡的第70篇原创

持续更新日常生活运营见解趣事

重点以网络运营、书籍阅读为主

感兴趣的朋友可以一起讨论

一起做一个懂**创业者


今天,老胡跟大家分享一下搜索引擎板块的内容。虽然目前搜索引擎越来越被众多的企业忽视,认为流量更多的在现在的信息流和短视频板块。但是对大宗商品以及TO B的企业来说,搜索引擎始终是精准客户的重要来源。


编辑搜图

要想在搜索引擎有好的排名表现,收录是基础,另一方面,页面收录的数量级也代表了网站的整体质量。今天老胡就跟大家聊聊搜索引擎的工作原理。


搜索引擎工作过程大致分为三个阶段:


首先是蜘蛛爬行和抓取,搜索引擎蜘蛛通过跟踪链接来查找和访问页面,读取页面的HTML代码,并且将其存储在数据库中;其后,索引程序对抓取的页面数据进行文本提取、中文分词、索引、倒排索引等处理,供排名程序调用。最后,当用户输入查询词以后,排名程序调用索引数据库数据,计算相关性,然后按照一定格式生成搜索结果页面。


那蜘蛛爬行的方式有哪些呢?当蜘蛛访问网站的时候,首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不会抓取被禁止的URL。


然后,蜘蛛开始跟踪链接,从一个页面爬到下一个页面。一般爬行策略分为两种,一种是深度优先,一种是广度优先。这也就意味着蜘蛛的爬行线路有两条方向。而在做seo的时候,如果想要更多的蜘蛛来爬取,就需要引导更多的蜘蛛。影响蜘蛛的主要有五个因素:网站和页面权重、页面更新程度、导入链接、与首页的距离和URL结构。


当然,蜘蛛不会重复地爬取网站,就会建立一个网页地址库,然后再统一进行安排爬行。而地址库的主要网址来源有:1、手动输入种子网站;2、站长通过界面提交的网址;3、站长通过XML网站地图和站长平台提交的网址;4、文件存储;5、爬行时检测复制的内容;6、蜘蛛抓取页面后,从HTML中解析出来新的链接URL,并与地址库中的数据进行比较。如果地址库中没有网站,将存储在地址库中进行访问。


内容预处理也叫做索引。内容的预处理包含了文字的提取,也就是存储在原始页面数据库中的是HTML代码,其中不仅包含用户可以直接在页面上看到的文本内容,还包含JS、AJAX等搜索引擎无法用于排名的其他内容。首先要做的就是从HTML文件中移除这些无法解决的内容,提取出可以排序的文本内容。


其后就开始中文分词,中文分词是中文搜索引擎的独特步骤,一种是基于字典匹配,另一种是基于统计。下一步就是将一些停止词去掉,比如:的、啊、哈等都叫做停止词。搜索引擎删除这些停止词,使数据主题更加突出,并减少不必要的计算。同时也要去除一些噪声词以及进行内容去重。


经过以上的步骤,搜索引擎最终得到能够反应页面主要内容、以词为单位的唯一内容。搜索引起的索引程序开始提取关键词,并根据分词程序划分的单词将页面转换成由关键词组成的集合。同时需要记录频次、频率、格式(比如标题、H标签、锚文本等)和每个关键词在页面上的位置。搜索引擎的索引程序会将页面和关键词构成的词库结构存储到索引数据库中。尔后,待排索引就进入了工作,如果只有正向索引,排名程序每一次都需要扫描索引数据库中的所有文件,然后计算相关性,这种是很慢的。所以在倒排索引中,关键词是主键,每个关键词对应一系列的文件。


内容处理完成以后,就是搜索结果排名了。搜索引擎在收到用户输入的搜索词后,需要对搜索词进行一些处理,然后才进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。搜索词处理以后,开始进入下一个阶段:文件匹配阶段,就是找出含有所有关键词的文件。当然,每一次找到文件返回结果只有760条,搜索引擎会根据搜索引擎相关性计算,其中计算包含关键词常用程度,词频及密度、关键词位置及形式、关键词距离、链接分析和页面权重等进行分析。最终根据综合计算的排名提供给用户不同的展示页面。


以上就是老胡分享的一些关于收录的一些知识。对于不从事该行业的有所生涩,不过对于从事网络推广的从业者来说,了解一下好处多多。



相关内容