预处理索引蜘蛛07

来源:摩臣2注册 发表于2018-10-22

07策略蜘蛛爬行抓取网站后,接下来就是预处理(索引》-蜘蛛抓取的原始页面不直接用于查询排名处理,而是先经过预处理,为查询关键词时的排名做准备。预处理主要包括内容处理、中文分词、去重、索引和用户体验判断等方面。
(1)

金洋官网内容处理

内容处理包括提取网页文本信息、特殊文件处理、消除噪声和去停止词四个方面。,搜索引擎以文字内容为基础,预处理首先要做的就是从蜘蛛抓取的HTML文件中去除标签、程序代码,提取出可以用于排名处理的页面文字内容。
·特殊文件处理:搜索引擎可以抓取以文字为基础的多种文件类型,如Word、WPS、XLS、TXT文件等,但是对这些文件的排名还是依据与之相关的文字内容。
‘噪声是指页面中对页面主题没有贡献的内容,如导航条、广告等,这些内容对页面主题起分散作用。消除噪声的基本方法是根据HTML标签对页面进行分块,
。去停止词:无论是英文还是中文,都会有一些出现频率很高,对内容没有影晍的助词、感叹词、副词或介词等,需要去掉这些停止词。
(2)

中文分词

中文分词是中文搜索引擎特有的步骤。中文词与词之间没有分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎需要分辨哪几个字组成一个词,哪些字本身就是一个词。
(3)

去重

搜索引擎在进行索引前还需要识别和删除重复内容。
(4)

索引

这里所说的索引是指倒排索引,是搜索引擎所使用的索引方式。如图1-6所示,如果用户搜索“关键词2”,只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的文件,再进行相关性计算。这样的计算量无法满足短时返回排名结果的要求,因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

除非注明,文章均由 摩臣2-摩臣2平台-摩臣2注册 整理发布转载。

如果喜欢,可以:点此联系站长订阅本站

摩登平台用户登录
用户名:
密码:
验证码: 看不清楚?请点击刷新
新用户摩登注册
用户名:
设置密码:
确认密码:
验证码: 看不清楚?请点击刷新
我已阅读并同意<<摩登平台产品商行协议>>