官方公告:我司为了更好的拓展全国业务,即日起所有新老客户均可通过平台担保交易合作,全国首家!

登录    顺的网络官网:www.sd668.cn

顺的推网络推广公司,专注整站优化,快照优化排名,网站关键字优化

SEO,SEO优化,百度关键词优化,seo人工优化,优化公司,关键词SEO优,百度SEO优化,网站优化,seo培训,新站优化,整站优化,快速排名,百度排名,7天快速排名,关键词优化,搜索引擎优化,佛山SEO
  •   seo优化网站_seo优化按天扣费——如何处理采集内容问题? >  seo技术
  • 浅谈SEO优化网站如何处理采集内容问题?
  • 2019-03-26 08:56 星期2 9195 0评论

    浅谈SEO优化网站如何处理采集内容问题?

     

    本文章由seo优化按天扣费用户上传提供

    上回说道处理采集内容的两个先后步骤:

     

      对原始内容的处理

     

      对处理后内容进行组织

     

      第1块,对原始内容的处理,上篇主要针对html源码信息的处理,但没说对文本信息该如何处理。

     

    浅谈SEO优化网站如何处理采集内容问题?seo优化按天扣费,seo按天计费

     

      下面分享下本渣渣曾经使用的一些,对采集内容文本的处理方式…

     

      对原始采集内容文本信息的处理

     

      对元数据的处理,这边忽略,因为元数据主要是添加逻辑上的映射。比如我一个企业黄页的网站,去抓了“XXX公司的规模、商标、年营业额、法人信息”等元数据,我需将这些元数据与本站库内对应的企业做个关联即可。因为元数据属于短文本,即采即上,无需做重复性方面的处理。

     

    浅谈SEO优化网站如何处理采集内容问题?seo优化按天扣费,seo按天计费

     

    seo内容

     

      如果采集内容是连续大段的长文本,为了保证SEO效果,对html源码处理后,也可以进行文本的处理。

     

      文本信息处理,包括标题和正文两部分(不考虑人工修改,只考虑批量处理)

     

      标题

     

      要我说SEO重要的点、核心的点,就是“词”,其他的SEO手法、技巧都是在“选对词”的基础上才有大效果。

     

      终目的是让标题中出现用户可能会搜索的词,详情页标题中的词好是有一点点搜索量的、百度搜索结果少的,而不是热词、谁都抢着做的词。

     

      首先一个网页标题出现的关键词越热门,被收录的几率越低,这是可以肯定的,所以不要58赶集这些大站点做啥词,一个采集站也跟着做,除非本身权重高,否则基本没戏的。

     

      其次,在垂直行业领域和充满个性化搜索内容的领域,竞争小且有些流量的词可以挖出很多的。垂直领域的这些词不容易找,因为需要对行业的理解,仅靠SEO工具不容易发现。

     

      个性化搜索内容领域,如编程开发、娱乐八卦等,这类领域永远充满个性化的搜索词,随着时间的推移会源源不断的产生新的搜索行为,只要搜索引擎不完蛋,这个领域就永远充满搜索流量,所以仔细观察,好些活的挺长的流量站,内容选型大多符合这个特性,不像“招聘、二手车”之类的行业,用户的搜索行为基本是不变的,几个站都抢同一批词,都饱和白热化了,流量自然不好做。

     

    浅谈SEO优化网站如何处理采集内容问题?seo优化按天扣费,seo按天计费

     

      采集标题如何插入搜索词

     

      如果采集的目标网站,他们的标题本身就不符合SEO,比如抓了一堆新闻标题,如何让标题尽可能的集中用户可能会搜的词?本渣渣之前尝试过这些方法:

     

      方法一:精简原始标题

     

      步骤如下:

     

      对原始标题分词

     

      去除停止词

     

      获取词缀词性

     

      去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取句子主干

     

      基于python的jieba模块实现,要删除的修饰词可以预先分析大量的标题来提取,追加到字典中。github有现成的提取句子主干的轮子,好像用的nltk。

     

      貌似1688部分产品页的title就是这么搞的,把用户发布的产品名中一些无关大雅的词缀干掉,提取主干放到title标签中。

     

      方法二:插入搜索词

     

      步骤如下:

     

      搭建xunsearch或其他的开源搜索,对采集标题创建索引

     

      用提前准保好的搜索词(就是要做的那些词)依次到搜索接口中搜索

     

      对搜索结果中出现的标题前方插入当前搜索词

     

      比如原标题是:“斗鱼美女主播直播睡觉一夜狂澜20万”…..,我要做的词有“斗鱼美女直播”,则标题前插入关键词:“[斗鱼美女直播]斗鱼美女主播直播睡觉一夜狂澜20万”

     

      当然也可以:“{强行插入的搜索词}{精简后的原始标题}”

     

      方法三:插入当前标题已包含搜索词的衍生词、相关搜索词

     

      步骤如下:

     

      抓取标题已包含搜索词的百度相关搜索或下拉框,或者通过Word2vec算法分析其他抓取内容正文,获取该搜索词的同义词..

     

      标题中插入相关搜索或下拉框的词

     

      如:”[{百度相关搜索词1}]{精简标题}”、“[{下拉框推荐词1}{原始标题}]”……相互组合啦……

     

      正文

     

      正文的处理主要是针对重复性,尽量降低与原始内容的相似性,本渣渣用过以下方法:

     

      正文开头、结尾处插入随机文本

     

      比如插入当前标题包含搜索词的相关搜索词:“本文包含其他主题:{相关搜索词1}  {相关搜索词2}  {相关搜索词3}…”

     

      比如插入当前页面的历史referer词,“用户曾经通过 {referer词1}  {referer词2}  {referer词3}…搜索到本页”

     

      比如提前准备一些能够通用的文本模板,随机调用

     

      修改正文内容

     

      基于pagerank提取关键词,textrank算法提取文本摘要,其实就是把正文内容精简,提取主干信息,可能终获得原始内容50%左右的字数。

     

    浅谈SEO优化网站如何处理采集内容问题?seo优化按天扣费,seo按天计费

     

      为了防止字数过少,可以提前用k-means和tfidf,找出当前文章的相似文章,可以提取它们正文字数长的段落的摘要,加到当前的文章中用作字数上的补全。

     

      这样基本上文章是读的通的,符合中文语法,且原始正文是以词缀为粒度的删减,所以一定程度能够减少搜索引擎三字一判的重复性识别,对用户和搜索引擎都相对友好,虽然肯定比不上人工编辑的质量,但比市面上粗暴的同义词替换、段落增删的软件比起来好很多。比中文原封不动不改好一些。

    “声明: 本文是(顺的推seo)原创,请尊重作者版权,文明转载也是一种美德。转载请保留链接!

SEO优化.png

首页 |  关键词价格查询 |  按天扣费 |  疑义解答 |  合作流程 |  SEO案例 |  新闻中心 |  联系我们 |  网站地图 |  xml地图

联系人:赖经理 咨询热线:13929141150 座机:0757-26110631

Copyright © 佛山市顺的网络工程有限公司 粤ICP备17011811号
技术支持:顺的网络
百度统计
客服中心

咨询热线

139-2914-1150

优化咨询 售后咨询 渠道合作 建站咨询

顺的推网络推广公司,专注整站优化,快照优化排名,网站关键字优化

更多案例可加客服经理微信,朋友圈定期更新案例
  在线时间:8:00-18:00