重庆屌丝seo拥有888+优化师团队、纯白帽手法、排名稳定、专人负责解决您的seo问题

【昆明SEO】内容时代,SEO提升的一些经验总结

- 作者:重庆网络推广    来源:重庆seo       浏览量:

【昆明SEO】内容时代,SEO提升的一些经验总结

SEO是一种通过遵循搜索引擎原则,并持续优化网站,以获取网站在搜索引擎中更高的排名的技术,通过更高的排名使得网站可以获取更多流量。SEO的优化工作可以从非常多的方面做起,比如TDK的优化、内外链建设、无线化等等传统的优化方法,在这些方面alibaba.com的工程师已经做了大量的工作。


随着搜索引擎算法能力的提升,它越来越关注搜索用户的实际体验,真正有内容价值的页面越来越受到青睐,给予的排名也相应提高,吸用更多的用户。下图1是国外机构给出的近两年SEO影响因素的重要性排名,从中可以看到内容建设在SEO的重要性非常高(23%)。


我们所做的工作主要是聚焦于网站的内容建设上,本篇文章将会分享我们把深度强化学习应用到国际站SEO(搜索引擎优化)的一些工作与尝试。


在这项内容建设的工作中,我们主要是做了一个商品摘要信息抽取的任务,去优化站内SEO Landing List页面质量。具体来说,我们在搜索Landing List页上,为每一个商品添加相应的商品描述摘要信息。这样,一方面增加页面文字内容,提高了google搜索引擎的SEO排名,为站内SEO引入更多流量;再者,通过对于商品的描述,吸引用户停留,提高用户二跳点击率,增强页面粘性,这样也进一步正向影响SEO排名(如下图2所示已上线内容)。


给定商品和相应的商品描述,我们希望从商品描述中抽取出合适的句子作为商品摘要信息。目前在alibaba.com国际站内做这个任务主要面临了两个主要挑战:


目前站内描述没有严格的标注数据,无法直接指导模型应该抽取哪些句子作为商品摘要信息。


站内商品描述复杂多样,商品描述中还存在着大量的物流、付款、QA等信息,如何从较多的噪声中抽取出真正描述商品本身的摘要语句也是较大的困难。


我们可以认为这是简单的摘要抽取,将这个问题定义为一个无监督任务,用一个传统快速的算法模型作为Baseline即:Textrank算法。Textrank算法是一种常见的无监督摘要抽取算法,主要通过比较商品描述中的各个句子与其他句子的语义相似度,计算各个句子的Textrank值,再基于此排序选择top-N句作为摘要信息。我们用来计算语义相似度的公式为:


在人工review的过程中,我们发现Textrank产出的结果包含了较多的噪声,其原因主要是站内数据相对较杂,很多商家会把很多商品无关的信息加入到商品详情描述中,比如物流、付款等信息。而Textrank算法是一个基于语义相似度的无监督算法,这种情况下抽取的句子可能会产生偏差,比如抽取的句子在描述付款流程而不是真正在描述商品本身。对于上文所提到的两个挑战(无监督、噪声多),Textrank算法本身并没有办法去很好的解决。


鉴于上文提到的无监督的挑战,我们提出了一些改进策略。首先引入了商品类目标签,把无监督学习转化为了弱监督学习,通过商品类目标签,指导模型抽取类目相关的语句作为商品摘要抽出,转化为弱监督学习。越是类目相关,也越有可能是在描述商品本身,相对也更适合作为商品摘要信息被抽取出来。基于这个弱监督目标,我们提出了第一个改进工作——注意力模型。


实践中,我们发现注意力模型非常适合该类任务。概括来说,我们构建了一个基于商品描述的文本分类模型,分类的目标就是我们引入的商品类目标签。在商品描述的类目分类中,由于我们引入了注意力机制,注意力机制会为每句话分配一个注意力权重,一句话的权重越高,也就是说该句子越类目相关,则更适合作为商品摘要信息被抽出。我们的模型细节如图3所示。                                                                            


图3示例的商品描述中有三句话,分别描述了商品的材质、外形以及商家的联系方式。首先模型通过共享参数的CNN网络对每句话做一个特征提取。经过特征提取的特征向量Vector1、Vector2和Vector3通过注意力机制进行结合。这边用的注意力机制参考[1],具体公式如下:


首先每个特征向量通过一个全连接网络进一步提取特征,并和一个全局向量U计算相似度,全局向量U可以理解为多个类目标签的抽象表示。这里计算出的相似度α则是各个句子的注意力分配。之后各个特征向量根据权重α做一个加权和,形成最终的商品描述的特征向量D。最后基于D构建一个商品类目分类的全连接层。在模型正确训练的情况下,注意力权重α会把更大的权重分配给更加类目相关的句子,比如描述材质以及外形的句子,通过他们可以比较确定该商品是一个T-shirt。而第三句描述了商家的联系方式,在不同类目中,可能都会有相似的句子,即他们相对来说类目无关,所以注意力的权重一般相对较低。之后我们根据注意力分配进行排序,根据排序的结果,选择top-N个作为输。


在完成了注意力模型后,我们发现依然存在一些缺点。对于前文所述的两个主要挑战,注意力模型只能解决第一个,即从无监督学习转化为一个弱监督学习。而对于第二个噪声较多的挑战,目前来说并没有得到很好的解决。

1.png

具体来说,有两种情况注意力模型没法很好应对,如图4所示,在Case1中,商品描述的质量相对较高,存在多句的商品摘要信息。这里假设超参top-N设置为2,会舍弃其余优质的摘要语句。而在Case2中,商品描述内容与商品关系不大,一句合适的摘要信息都没有,这种情况下,依然受限于top-N=2的限制,注意力模型依然会选择两句作为摘要,这种情况便引入了较多的噪声。从两个案例中可以看出,受限于超参top-N,注意力模型无法动态根据商品描述的质量合理选择相应数量的摘要信息,从而引入大量噪声。因此,我们进一步提出了模型的改进方案,即强化学习模型。


强化学习模型我们采用了Selector-Classifier的模型架构,参考了[2],其中Selector Network负责从商品描述中选取合适的摘要信息作为输出,而Classifier Network负责评判选取的句子的质量,并反馈奖励,两个神经网络共同训练。具体模型架构如图5所示。


具体来说,模型中一共包含了三个网络——Encoder Network, Selector Network以及Classifier Network。


首先是一个Encoder Network,它的主要作用是特征提取,把原句子经过特征提取,形成特征向量Vec1至Vec4。基于这四个特征向量,Selector Network开始做选择操作,Selector Network的输出单元长度为1,含义是该句句子被认为是类目相关的概率。


然后,Selector Network在商品描述的所有句子上都完成决策后,被接收的句子送进Classifier Network,计算类目分类时的交叉熵损失,并将损失作为reward反馈给Selector Network,帮助他进行策略更新。


另外,在某些情况下,Selector Network可能会对每句商品描述都做出拒绝操作,该种情况下由于无法通过Classifier Network对策略进行reward估计,我们则采用在训练集上的类目分类的平均交叉熵损失作为reward反馈给Selector Network进行更新。


目前我们主要做了两个线下实验去检验我们模型的性能。


第一个实验主要是用摘要抽取模型在原来包含噪声的数据集上进行摘要抽取,将抽取出来的句子代替原来的数据集,使用同一个分类网络(text-CNN)进行类目分类的任务。在性能评测中,我们加入了Textrank算法共同比较。具体的评测结果以及在验证集合上的Loss曲线如下图6所示:


这里的全量数据是指不经过任何信息抽取模型,直接用原来含有较多噪声的数据进行商品类目分类任务评测。从实验结果中可以看出,全量数据含有非常多的噪声,直接在其上训练商品类目分类模型的性能较差,accuracy只有约47.5%,而强化学习模型性能较好,取得了80%左右的accuracy,说明其排除了较多的噪声。这一点从在验证集合上的Loss曲线也可以看出,全量数据由于含有较多的噪声,拟合相对较差,而强化学习模型则拟合最好。同时注意力模型的性能略优于Textrank模型,提升了约4%。


另外我们做的第二个实验是一个有监督的评测,我们人工标注了1000条数据,在标注数据上比较各算法的性能。具体的实验结果如下图7:


这边可以看到强化学习模型的Precision和F1值相较于两个baseline(注意力模型和Textrank算法)有较为明显的提升,而Recall则相对较低(低于注意力模型0.1)。这里的主要原因是强化学习模型目前人工标注的数据上输出的句子数目比注意力模型和Textrank算法要少约30%,在这种情况下,Recall值会相应有所降低,但目前来看损失的幅度较小,同时会获得Precision上的明显提升。


另外一点值得注意的是注意力模型在引入了商品类目标签后,在两个实验中性能相对于无监督的Textrank算法均没有特别显著提升,这边我们认为的原因有两点:


1)top-N的超参设置限制了两个模型的性能,使得两者性能皆表现不佳,目前我们还没有找到合适的方案使得模型根据商品描述质量本身动态选择参数top-N。


2)注意力机制还需要进一步优化。在注意力机制上,我们注意到在[1]中类似的注意力机制主要用于少数类别分类问题,而在我们的业务场景中,则是类目量级远大于前者,考虑到全局向量U可能无法有效编码所有类目信息。


为此我们在商品描述上,做了一个文档级别的类目分类测试,使用了相同的CNN网络,一个使用注意力机制,另外一个不使用注意力。最终的训练结果如下图8:


可以看到目前的注意力机制并无法带来显著的性能提升。后续我们考虑Selective attention机制可能更加适合于我们当前的业务场景[3]。


基于之前注意力模型无法处理的两类案例,我们做了一些案例分析(如图9)。在Case1中,四句的商品摘要信息质量都相对较高,Attention列的的数值代表了注意力模型的注意力权重分配,从中也可以看出四句话的注意力分配相对较为均匀,但由于top-2的设置,注意力模型选取了后两句作为输出,从而错过了前两句。该种情况下,强化学习模型则能自适应的选择全部接受的操作。


而在Case2中,四句商品描述的与商品本身相对无关,从注意力分配的权重也可以看出,前三句由于类目不相关,注意力分配的权重较低,第四句相较前三句质量稍高,由于注意力需要Softmax至概率空间,所以第四句给出了极高的权重,最终选择了注意力分配靠前的第三、四句。而强化学习模型在这种情况下则选择了全部拒绝的操作,从而有效处理商品描述中不存在商品摘要的情况,进而排除掉更多的噪声。


线上评测一个月的时间,如下图10,纵坐标为UV,横坐标为实验天数,我们从流量引入量侧面来验证google的SEO对于这部分页面的排名的提升,如蓝线所示,可以看到上线后页面能带来稳定的UV提升。


从相关的实验以及我们自身的人工review来看,目前模型已经具备不错的除噪能力,其产出的结果,有了较好的可读性且包含相对较少的噪声。与此同时,该方法或能够与seq2seq模型结合,为文本导购生成获取优质的训练预料,从而解决英文场景训练语料较少的状况。


最近很多向我反映大量的网站都降权了,包括我自己的SEO博客,最近一个月也降权,但是这两天在慢慢恢复,至于过程也是一波未平一波又起的状态。


但是这次我给大家分享的内容并不是去说什么SEO降权原因,而是针对这些原因并且通过大量的SEO以往案例来告诉大家网站降权的恢复周期。


毕竟咱们作为SEO人来说,恢复周期远远比降权周期要重要的多,因为网站既然降权了,那么就没有必要太过于纠结,更多的是把降权原因找到然后去恢复排名。


经不起打击的SEO人算不上是优秀的SEO人,就好像我博客最近一个月首页排名全掉,也一样用平常心态去对待。对于网站降权,我先把原因罗列出来,在根据大量的SEO经验,不同的症状一般来说恢复的周期也不一样。




很多经常给我抛出的问题就是我网站排名掉了,为啥掉了,不知道,啥都没动。 实际上这种答案我写了很多的,但是大多数都不会认真去思考。


就先说下博客,其实由于了好几个问题导致,第一个ATG页面是上个月发生的,解决了以后一周的时间恢复,然后到了月初,又来了一些非法友情链接影响,再次降权,这次降的厉害,周期是一个月。


除了这两点以外,实际上我网站还有被镜像,虽然没有做什么点击,也不是什么站群,但是这三点已经足够让一个纯原创的优质站点出现了很大的问题。


当然,这里要提示的就是不要认为网站降权即使是同一个原因导致,如果不去调整的话,那么降权就不是一个月而是永久了。因为你犯错的地方不去改正还想让搜索引擎给你好的对待那是基本上不可能的。


可以说90%的人都是因为这个问题导致,不要经常给我说什么我网站没有管,好好的排名也掉了。你以前发的垃圾内容百度不搞你站是看得起你,现在只不过来一次洗牌经不住考验的话,站点自然评价降低,排名就会全无。


尤其那些做低质量内容采集的SEO朋友要多加注意,这种行为就算在黑帽SEO领域都知道采用干扰码来解决搜索引擎打击采集问题。


另外,不要把一个问题想的太片面,自认为采集就是低质量内容的一种。比如我博客并没有采集,但是一样降权,重复内容页面和大量空内容页面也一样是网站降权的罪魁祸首,像自己网站很多页面内容质量和丰富度很差的都学会去整改,你不改就是放一年也不会恢复降权。


一般来说,这个东西只要整改了两周内就会恢复,除非没有整改好,像我博客上个月底出现重复内容,这个月初就恢复。


关于链接,又是一个致命伤,为什么这么讲,因为我的博客就是因为这点导致二次降权。前面交换的友情链接被别人做了灰色站,我没有检查,导致犯错。当然,链接不仅仅是非法链接连累你,包括链接买卖作弊、站群外链、链轮等各种都可能导致。


链接出来的问题就要比第一点要久了,一旦出现,基本上少则一个月,多则数月,碰到网站底子不好的,那就会更加尬尴。


关于是否为作弊链接


关于作弊链接,百度有讲过让大家不要做乱七八糟的购买链接行为。但是作弊并不是你买链接就可以,对于搜索引擎来说,他也不知道你是不是买的,但是可以通过大数据分析来得出答案。


比如链接购买有很多常规性问题,如同意时间站点大量出现导出链接,却没有导入。明显这种链接就属于非正常链接,也是被搜索引擎对于SEO优化打击的一个范围之一。


除了购买链接以外,再比如站群链接群发作弊也是其中一种。我将会在下面写关于站群链接的维度,但是站群链接打击起来基本上都是全部容易死掉的那种。所以对于站群链接来说,SEO需要做的事情更偏向对于链接这块领域的经验板块把控。


百度明确说了惊雷算法,实际上惊雷打击的更多的是流量异常,像附子老师的网站有了一定的用户群体和基数以后,所以并不需要靠什么点击来维持这个网站排名。


很多外界的人都认为我在刷点击,实际上真正去理解百度搜索引擎的知心算法以后就会懂得如果靠品牌把用户和站点关键词绑定在一起。,如下图所示:


估计有人看到这个就会想肯定又是刷的,因为有些做SEO的脑子里面除了作弊就没有其他了,很多时候返璞归真的时候往往才是SEO的真理所在。这些东西也是昨天一个朋友发给我看的,我都没有去看,才知道最近排名掉了以后,不少人天天搜索我标题和SEO培训搜索,看看我排名恢复了没有。


实际上这些东西都不需要我的刻意做,博客成立到现在快两年的时间,写出来的东西也让不少人有所收获,至于可以学到多少就看各位自己了。


最后要说明一下的是,点击这东西如果是个老站的话一般数周,如果是新站,那么恭喜你,很可能要花个几个月,因为我自己也经历过,所以我不再做点击,效果虽然好但是不一定真正维持到品牌路线走向。


这个是很可耻的,老实说这点上我也可耻了好些回,因为本身我做黑帽的话像镜像这种我也喜欢用。但是如果是老站的话,镜像还是危害比较小,不会很大,但是如果是新站的话,一旦被优质老域名给镜像,那基本上完蛋的可能性就很大了。


所以这里要告诉大家的是,一般没事别乱发网站,尤其是没啥排名的站点,还有多更新下网站内容啥的以及屏蔽采集IP。如果真的被镜像了,就去百度站长反馈即可,一般就会解决这个问题,至于周期只能说不一定,因为这东西看百度自己反馈进度了。


这点属于少数情况,但也有,比如有极少的学员就给我反馈过这个问题。有些时候网站安全还是非常重要的,尤其做寄生虫的,把网站黑了以后生成了各种网页,最后也导致自己的网站降权。


这里我要提示各位的是没事别把网站天天权限开着,不更新的时候禁止修改和上传网站任何东西,这样别人就奈何你不了。


一旦真的被发现,解决方案也很简单,就是把网站被黑的页面删了,然后根据规则去百度站长平台提交死链接即可,提交生效后一般恢复周期一个月左右。


本身这种现象比较少,主要还是存在一个企业像把同行的词全部捞完才导致的结果。


SEO优化过程当中站群就好比法律的界限,解决站群的方式也很简单,不要用一个备案的企业去做同一类关键词还做了很多网站,越多元化这样越好,不然不解决的话,永远不会恢复,解决了基本上很快就可以恢复。


最后:补充点


网站服务器速度、其他SEO不规范比如触发百度的一些算法等也会导致网站降权,速度就是根据网站的流量去提升服务器配置,比如宽带、CPU这些等。 一般这种解决了以后反馈一次一周内就可以恢复,但是很多人都是把SEO想成了一个点,这次我总结的这些东西,自己去对着弄。


百度让你做优质内容就把内容做好点,速度也快点,备案也做好,少做关键词堆砌,不要发垃圾内容或者空内容页面,不要触发点击或者链接问题,基本上啥降权都不会有,所有的降权都是来自于你的贪恋!


本文首发地址:http://www.cqlife.com/seojs/20190402/117.html
相关文章推荐:
合作伙伴:   重庆SEO 重庆网站优化 重庆SEO优化 重庆网站建设 小潘seo 重庆祥云网络推广 重庆大熊seo 黑帽seo seo 附子SEO 小明SEO 白帽seo seo技术博客 seo优化 网络推广 网站优化 网站排名 关键词排名 上海seo 广州seo 深圳seo 成都seo