官方公告:我司为了更好的拓展全国业务,即日起所有新老客户均可通过平台担保交易合作,全国首家!

登录    顺的网络官网:www.sd668.cn

顺的推网络推广公司,专注整站优化,快照优化排名,网站关键字优化

SEO,SEO优化,百度关键词优化,seo人工优化,优化公司,关键词SEO优,百度SEO优化,网站优化,seo培训,新站优化,整站优化,快速排名,百度排名,7天快速排名,关键词优化,搜索引擎优化,佛山SEO
  •   网站seo优化_百度专利关于重复检测! >  seo技术
  • 讲解网站seo优化百度专利关于重复检测!
  • 2019-03-18 14:36 星期1 9204 0评论

    讲解网站seo优化百度专利关于重复检测!

     

    本文章由seo优化按天扣费用户上传提供

     在(2011)之前一般是通过比较两个页面的内容和节点,来确认两个页面的相似度。这种方法能够计算得比较准确,可时间复杂度太高,计算很费时间。通过对一个页面中的某些重要信息进行签名,然后比较两个页面的签名,来计算相似度,这种方式比较简单 高效,计算速度比较快,比较适合互联网这种海量信息的应用场景!

     

      在百度专利《一种网页重复的判断系统及其判断方法 》(申请号:201110031636.9 )中使用了新的方法对网页库中的网页进行重复检测.

     

      首先是对待检测的网页进行正文提取,正文提取的方法就是对网页进行分块,然后获取正文块,然后提取正文块中的文章.

     

      提取到文章内容后,对正文进行分句,然后对每一个句子进行转换和过滤(特殊字符),对较长的一个或几个句子进行Hash签名,以获得网页正文句子签名.

     

      接着把正文句子签名相同的文章分为一个类,我们称之为网页集,对该网页集下的文章再进行下一步的判断,这里还得再计算一些签名

     

      1.网页正文的simhash签名

     

      2.真实标题的hash签名

     

      3.标签标题的hash签名

     

      4.网页摘要的hash签名

     

      5.网页内容的hash签名

     

      6.位置签名的hash签名

     

      7.评论信息的hash签名

     

      8.资源签名(资源签名是通 过对网页中的图片资源、声音资源、视频资源或下载链接资源的 url 进行 hash 签名运算获得)

     

      9.URL文件名的hash签名(url文件名签名是通过对网页的 url 中的文件名进行 hash 签名运算获得)

    讲解网站seo优化百度专利关于重复检测! 

      这些计算完了,就可以进行下一步的判断了,真重复的网页举例:

     

      1、两个网页的真实标题签名相同。

     

      2、两个网页的网页内容签名相同。

     

      3、两个网页的网页正文签名(simhash)的不同位数小于 6。

     

      4、两个网页的网页位置签名相同,并且 url 文件名签名相同。

     

      5、评论块签名、资源签名、标签标题签名、摘要签名、url 文件名签名中有三个签名相同。

    讲解网站seo优化百度专利关于重复检测! 

      通过两两页面比较,可以得到真重复 url 的集合。一般来说,如果这个真重复 url 集合中的网页的数量 / 整个网页集中网页的数量> 30%,则认为整个网页集都是真重复, 否则就是假重复。

    “声明: 本文是(顺的推seo)原创,请尊重作者版权,文明转载也是一种美德。转载请保留链接!

SEO优化.png

首页 |  关键词价格查询 |  按天扣费 |  疑义解答 |  合作流程 |  SEO案例 |  新闻中心 |  联系我们 |  网站地图 |  xml地图

联系人:赖经理 咨询热线:13929141150 座机:0757-26110631

Copyright © 佛山市顺的网络工程有限公司 粤ICP备17011811号
技术支持:顺的网络
百度统计
客服中心

咨询热线

139-2914-1150

优化咨询 售后咨询 渠道合作 建站咨询

顺的推网络推广公司,专注整站优化,快照优化排名,网站关键字优化

更多案例可加客服经理微信,朋友圈定期更新案例
  在线时间:8:00-18:00