发现世界搜索引擎 - 运作方式及其工作原理详解
findworlds | 2020-06-12 00:43 阅 56 评 0
发现世界搜索引擎 拆解为: 发现、世界、搜索引擎

发现世界搜索引擎运作方式详解:

本章节主要详解内容有:搜索方式、排名方式、爬虫工作原理、相关搜索推送、官网认证、竞价排名进行解答。


搜索工作方式



工作方式是通过检索MYSQL数据库。我们对数据库进行处理过程中,加入了分词拆解。举个例子:
匹配度:
发现世界搜索引擎这个关键词,将被拆解为:发现、世界、搜索、引擎。然后,将对这四个词组里面出现的次数统计。假设:一个词条有:发现世界,另一个词条有搜索引擎,那么他们的统计个数都是出现一次的话,则根据自然ID排名,如果世界出现两次,则评分会高,它将排在前面。我们也将这时候搜索出现的关键词进行匹配统称为:匹配度。


权重:

如果,我还有权重呢?如果有权重的话,我们通过计算方式,把权重转化为点击率,有权重即代表有点击率,我们会把权重和点击率一起转化相加,再加上匹配度。请看计算公式:权重有1-15,举例:权重1 = 100点击率,权重2 = 300点击率,权重15 = 一百万点击率。权重是按照一个顶级域名来评判的。那么:

排名得分 = 匹配度 + 权重(转为为点击率) + 点击率(单个词条的点击率)

得出来的结果,按照高到底排列。


点击率:

点击率是按照单个词条页面来计算的。那么它是怎么生成权重的呢?爬虫内容采集也会讲解。先简单讲解:它是对当前顶级域名下的所有子链接的点击率进行评判,假设所有子页面点击率相加,超过:100,则为权重1,总点击率超过:300,则爬虫更改为权重2。




排名方式


公式:排名得分 = 匹配度 + 权重(转为为点击率) + 点击率(单个词条的点击率)

假设点击率100,权重3,权重3转换为点击率的设置是 300 次。那么权重3 = 300点击率,匹配度为60。

排名得分 = 100 + 3*100 + 60 = 460


权重的生成计算方式:

假设:findworlds.com,这个是我们的顶级域名,我们通过把它提交到爬虫后台,默认权重为0。然后,我们对它抓取了 100个页面。但是里面的点击率均为 0。当用户搜索后,我们会对单个词条的点击率统计递增,假设对A链接点击了10次,B点击了50次,C点击了70次。假设权重1需要达到顶级域名下的所有链接的点击率一共有 100 次点击,那么,后台爬虫的判断是:

权重1 = 100次点击,权重2 = 300次点击

权重 = 10+50+70 = 130 次点击,他不符合权重2,但符合权重1,爬虫会将 findworlds.com的权重变更为权重1。当它的总点击次数超过300次,则变更为权重2。


内容采集原理


内容采集原理是通过爬虫模式。我们拥有智能爬取、自动更新、抓网址导航。

他们的工作:



相关搜索推送




官网认证


发现


竞价排名


发现是


说说我的看法
最新评论
    快来抢沙发...