Google质量评分指南简介

2020年9月16日01:02:09 0 阅读
摘要 Google质量评分指南简介 上星期Google Medic更新的帖子预告了,今天开始聊一下Google的人工质量评估指南。由于这个指南很长,长达164页,所以分3个帖子聊: Google质量评分指南简介 什么样

SEO文章目录

Google质量评分指南简介

上星期Google Medic更新的帖子预告了,今天开始聊一下Google的人工质量评估指南。由于这个指南很长,长达164页,所以分3个帖子聊:
  • Google质量评分指南简介
  • 什么样的页面才是高质量的?
  • 什么是E-A-T?
即使分成3个帖子,也只是简要介绍和写点感想,指南中的大部分内容都忽略了。有读者建议我把指南翻译成中文,还是不翻译了,原因是:
  • 指南太长了
  • 大部分内容和SEO关系不是很大
  • 没有授权
指南是给Google的人工评估员做培训用的,很多SEO熟悉的内容没必要提了,比如怎样分辨页面主题内容、辅助内容、广告之类的。占最大篇幅的是让评估员明白,怎样判断搜索结果是否满足了用户查询的需求,和SEO的关系并不大。

Google质量评分指南有哪些内容?

整个指南分3部分:
  • 页面质量评分指南 – 这个是SEO真正关心的,包括理解页面创建、存在的目的,评估页面内容质量,网站和创作者背景调查、声誉调查。
  • 理解移动用户需求 – 只有理解用户需求,才能判断搜索结果是否满足了需求。这部分是为第三部分做准备。
  • 满足需求评分 – 针对某个查询词,评估员怎样判断搜索结果在多大程度上满足了用户需求,应该打什么分
后两部分占了100多页,虽然对SEO直接帮助不大,但为了全面了解Google质量评分指南,还是在第一篇帖子介绍一下。

理解移动用户需求

整个指南是比较偏向移动搜索的,对页面的评估是要在移动设备上完成,但背景调查等可以到PC上做。
所以指南花了很大篇幅介绍移动用户需求问题,不过我觉得这部分主要是用来训练评估员们理解用户搜索意图、地理位置对搜索意图的影响、判断搜索结果是否满足了搜索意图、以及一些特殊情况的处理,和SEO该怎样提高页面和网站质量分数关系不大。
下面只简单介绍一下这部分内容。
理解查询意图:透过查询词,理解用户查询意图。正确理解查询意图是判断搜索结果是否满足需求的前提。有的时候查询意图是很直观明显的,有时候要思考一下,比如搜索“天气”,用户绝大部分情况下是想知道最近几天的气温,是否会下雨,不是想了解专业知识。
本地特征:包括语言和地理位置。本地特征有时候会影响查询意图,因此影响搜索结果相关性。比如,上海和武汉的用户同样搜索“天气”,最相关的搜索结果应该是不一样的。英国和美国人搜索“football”,想了解的不是一种运动,在美国,“football”指的是橄榄球,不是足球。
带有明确地点的查询:查询词里带有明确地点,比如搜索“北京 酒店”,即使用户是在上海搜索,他还是想了解北京的酒店。
多义查询:同一个查询词可能有多种意义和意图。比如搜索“苹果”,多数人的意思是指苹果公司,常见意思是水果,少数意思是人名、城市名之类的。
查询词意义随时间改变:搜索“美国总统”,在不同年份指的是不同的人。通常要假设用户想了解的是最新意思。
用户意图:用户查询时的意图可以分为4种。
1)了解信息。有时候是明确简单的信息,比如“姚明 身高”,这种查询需要完整、正确的回答,很多时候是由第0位结果回答了。
2)做事情,比如购物、下载、娱乐。有时候是让设备自己做事情,比如通过语音设置闹钟。
3)网址查询,用户就是想找特定网站或网址。
4)亲自访问,很多日常生活服务相关的词有这种意图,比如搜索“附近 海底捞”。
有些查询有多种意图的可能性,比如搜索“北大”,可能是用户在附近,想到北大看看,也可能是找北大官网,也可能是想了解北大。
评估员要完成的评估任务种类很多,但最主要的是两种:页面质量评分和满足需求评分。

页面质量评分

页面质量评分, Page Quality Rating,评估员在理解页面存在目的的前提下,根据页面在多大程度上达到了这个目的,给予5个级别的质量打分:最低,低,中等,高,最高。
页面质量评分是和用户的查询词无关的,打分时不用考虑用户搜索什么词。页面质量评分就是页面本身的特征。评估系统给出一个页面,评估员使用滑动条打分,大致是这个样子:
页面质量评分
也可以有High+之类的介于两个级别之间的打分。
给页面质量打分时主要考虑的因素有:
  • 页面的目的
  • 专业度、权威度、信任度
  • 主体内容质量和数量
  • 网站背景信息、主体内容创作者信息
  • 网站和主体内容创作者声誉
这部分是指南对SEO最有用的内容,帮助我们理解在搜索引擎眼里,什么样的内容是高质量的。下篇帖子再详细介绍。

满足需求评分

满足需求评分,Needs Met Rating,评估员以移动用户需求为标准,判断搜索结果对用户有多大帮助,在多大程度上满足了用户需求。这个评分是和查询词有关的,评估的更多是Google算法是否合理。
评分系统平台会给出查询词,和正常搜索结果页面差不多的搜索结果,每个结果下面或旁边有打分用的滑动工具条,大致是这个样子:
搜索结果是否满足需求评分
评估员可以给结果打几个级别的分:
  • 完全满足需求(FullyM, Fully Meets):用户需求被完全、完美满足,不用再看其它结果了。通常,查询词有明确答案的才会有完全满足需求的评分,比如搜索“亚马逊”,亚马逊官网就是FullyM。
  • 很满足需求(HM, Highly Meets):对大部分用户来说非常有帮助。有小部分用户可能还想看看其它结果。通常是质量高、有权威度、最新的内容。一个查询可以有很多“很满足需求”的结果。比如用户搜索“海底捞”,标出附近海底捞地点的地图结果是个HM,但不是FullyM,因为可能有小部分用户想看的是海底捞官网,所以海底捞官网是另一个HM。
  • 中等满足需求(MM, Moderately Meets):对很多用户有帮助,或者对一些用户很有帮助。有些或很多用户可能还想看看其它结果。能回答查询,但没那么全面、及时、权威,同时不是低质量、过时、不准确的内容通常属于MM。
  • 有点满足需求(SM, Slightly Meets):对部分用户有帮助。很多或大部分用户还得看其它结果。可能是质量较低、过时、不大准确、太宽泛或太狭隘的内容。标题有误导性或太夸张的也属于SM。
  • 不满足需求(FailsM, Fails to Meet):完全不满足移动用户需求。几乎所有用户都得看其它结果。经常是与查询无关、事实错误、很低质量、很过时的内容,或者在手机上完全没办法用的功能。在页面质量评分中被评为“最低质量”的页面也应该被归为“不满足需求”。
打分工具条下面还有几个标签,可以给结果打上,包括:色情网站,外语,打不开,冒犯性内容。
不过,被打上这些标签的网站不一定就不满足用户需求,比如用户就是在搜索色情内容,色情网站是满足需求的。再比如,用户搜索“baidu”,百度首页应该被标为外语网站,但完全满足需求。所以,满足需求评分和这几个标签是互相独立的。
如果用户不需要点击搜索结果,比如第0位结果,想要的答案已经显示在搜索结果页面上了,根据显示在页面上的结果信息就可以打分了。如果大部分用户还得点击搜索结果页面,如普通的搜索结果,那么显示在搜索结果页面的信息(标题、URL、说明文字)和获得排名的页面内容都是打分依据。
结合页面质量评分和满足需求评分,综合评估任务大致是这个样子:
Google质量评估指南
页面质量评分和满足需求评分既是独立的,又有一定联系。通常满足需求的结果也应该是质量高的页面。

人工评分会影响页面排名吗?

虽然Google使用人工给页面质量打分,但所打的分并不直接影响页面排名。人工评估员所打的这些分只是用来评估Google算法是否准确。如果人工给某页面打的分很低,但算法给的分高,Google并不会直接修改算法对这个页面的打分,而是收集大量数据后修改算法本身,使算法得出的结果更接近人工打分。
所以如果有人说自己是Google人工评估员,这个是存在的,我就认识几个。他们通常是通过第三方公司雇用的兼职人员,其中不少是站长,也有就是做SEO的。但如果有人说自己能在人工评估过程中给特定网站提权或降权,那就是在骗人了。

关于重复内容

在某些评估任务中,比如Needs Met类,评估员需要鉴别和标注出重复内容。这里有个知识点是我以前没想到也没听说的:是否算重复内容是取决于查询词的。即使来自不同网站的两个页面主体内容相同,也不一定就要被标注为重复内容。标注为重复内容还要满足另一个条件:用户不希望在搜索这个查询词时看到两个结果都被返回。
什么时候用户会希望看到两个主体内容相同的页面都被返回在搜索结果中呢?这就取决于查询词。用户在搜索明确的特定内容时,比如某首歌的歌词,或者某篇特定文章,来自不同网站的多个内容相同的页面可能对用户是有帮助的,有助于用户相互比对、验证信息。这种页面,在这个查询词下,不应该被标注为重复内容,是应该被同时返回的。
查询词比较宽泛时,返回同样内容的多个页面就没什么用了。包括主体内容稍作微小改动的。
100多页的内容就被浓缩为这一篇帖子了。想更仔细了解的,请参考指南原文。(不清楚是否需要科学上网)

百度熊掌号初步使用体验

百度熊掌号推出一段时间了。从百度搜索资源平台在全国各地开研讨会、资源平台本身的教程、文章数量看,百度对熊掌号的推广不遗余力,比百度MIP有过之无不及。
由于我身在国外,申请各种号都很麻烦,所以虽然去年11月百度的朋友就帮我开了熊掌号权限,但今年3月底才开通试用了一下,分享一点初步使用的体验。

百度熊掌号对SEO的好处

使用百度熊掌号对网站流量、SEO有哪些好处,熊掌号官网有很全面的说明了。简单总结一下我觉得最值得关注的:
  • 排名、流量倾斜向开通熊掌号的网站。百度自己的说法是以后80%的百度搜索流量导向熊掌号。这个比例有点高,可能也要看网站开通熊掌号的普遍程度。无疑这是SEO最关心的。
  • 效果相当不错的收录渠道。熊掌号后台有资源提交接口,API推送技术实现也比较简单。使用效果也相当不错。
  • 页面在搜索结果中有特殊展现,如熊掌号logo和原创标志。
  • 熊掌号可以留存用户。搜索用户可以关注熊掌号,站长可以和粉丝有后期互动。这是以前纯搜索没有的功能,未来想象空间比较大。
还有一些其它利益,如原创保护、商业变现可能等等,感兴趣的可以仔细读官网说明。

熊掌号指数和新手期

熊掌号怎样注册就不用提了。国内站长怎样都比我注册方便、容易。
熊掌号有个搜索指数,用来衡量账号的质量或权威度。刚注册的熊掌号有一个新手期,搜索指数达到100后从新手期毕业。
提高熊掌号搜索指数的方法有两方面:
  • 一是质量分,包括内容质量、用户喜爱度、原创能力、活跃度、领域专注度
  • 二是任务分,完成一些简单任务就得到相应分数
新手期熊掌号基本上只能靠任务分提高,不过完成大部分任务也就够100分,渡过新手期了。下图是我新手期时完成任务的情况:
百度熊掌号搜索指数任务分
认证类任务就是绑定微博、微信公众号、头条号,点击“去完成”链接,登陆授权就行了。是的,经过千辛万苦,我终于有了微信公众号了,名称是“Zac的一部分生命“,闲得无聊的读者可以关注,不过目前是空的,不打算聊SEO,还没想好做什么用。头条号还没有。这三个绑定完就拿55分了。
改造类任务有两个,一是把网站改为https,这个即使不用熊掌号也早就该改。二是页面MIP改造。虽然百度一直大力推动MIP,但我个人对MIP不是很感兴趣,因为MIP解决的问题比较单一,就是打开速度,对SEO每天一帖这种纯文字加简单图片,模板、功能都极简单的博客,正常页面本身就没什么零碎,MIP的提速效果恐怕有限,所以没做MIP改造。页面设计、功能比较花哨的网站做MIP还是划算的。
学习类任务,真的就只是需要学习一下就行了。虽然学习的是页面规范和功能改造,但并不要求真的改造页面或校验页面,访问一下学习页面就拿到分了。
提交类任务有两个。一是一次性的,提交收录50个页面就拿到30分。另一个是持续性的,30天内提交5次页面,就拿50分。但需要持续提交,过去30天没达到5次提交的话,少一次减10分。
我从3月底开始完成任务,在4月9号之前,分几次,按类别提交了所有值得提交的页面。这期间熊掌号搜索指数变化曲线如下图:
百度熊掌号搜索指数
4月23号以后,我有意停止更新博客,所以也没有新页面提交,提交任务分确实每星期减了10分,搜索指数也跟着下降。如果网站更新不频繁,可以考虑不要一次性提交所有页面,留一部分不重要的,每星期提交一点。

熊掌号在搜索结果中的展现

熊掌号渡过新手期,绑定的网站在百度移动搜索结果中就会以熊掌号形式展现(不必对页面做任何改造就可以),如下图:
熊掌号页面在移动搜索结果中的展现
可以看到搜索结果下面有我熊掌号的小logo和熊掌号名称。
用户点击熊掌号logo或名称就会来到熊掌号主页:
熊掌号主页内容
用户可以发消息,也可以关注这个熊掌号,成为粉丝。
上面提到,不用对页面做任何改造,就可以在搜索结果中出现熊掌号标志。但如果没有对页面做任何改造的话,熊掌号主页将不会出现网站上的文章。
熊掌号主页“文章”卡下面内容来自两方面:
  • 一是百度百家号(与熊掌号是打通的)上发布的内容,如上图中第一篇文章《百度SEO和谷歌SEO有什么区别》,标题下会有阅读数和评论数。
  • 二是直接来自网站的文章(需要对页面做改造,见下),如上图中第二篇《能否利用canonical标签陷害竞争对手》,没有阅读数和评论数。这篇文章我有意没有在百家号发布。
如果同一篇文章在网站和百家号都有,熊掌号会优先显示百家号。上图中第一篇文章,我是在网站发布三天后才在百家号发布的。网站发布文章后几小时内就出现在熊掌号主页了。但三天后百家号文章发布后,熊掌号主页显示的版本被改为百家号的那篇。
有时候这个去重的过程不一定准确。比如下图,网站文章和百家号文章(是同一篇)同时出现在熊掌号里:
百度熊掌号优先显示百家号文章

熊掌号页面改造

如前面所说,页面改造并不是必须的。但要想网站文章出现在熊掌号主页中,就需要对页面进行改造。其实改造也很简单,就是在页面头部中加一段代码:
<script type=”applicationld+json”>{
“@context”: “https://ziyuan.baidu.com/contexts/cambrian.jsonld”,
“@id”: “https://www.seozac.com/topic/how-long-to-rank/”,
“appid”: “1595707798626152”,
“title”: “做SEO多久才能看到效果?”,
“images”: [“https://www.seozac.com/wp-content/uploads/2018/04/age-1.jpg”,”https://www.seozac.com/wp-content/uploads/2018/04/age-2.jpg”,”https://www.seozac.com/wp-content/uploads/2018/04/age-3.jpg”],
“pubDate”: “2018-04-16T09:08:51”
}</script>
这段代码在熊掌号后台“号主页展现”和“搜索结果出图”部分都有列出来。@id是页面URL,appid是熊掌号ID,title就是页面title,pubDate是发布时间。
images是页面上的图片URL,可以是没有,1个或3个。images是个选项,可以没有这行,文章在熊掌号主页上就只有标题和时间。前些天“号主页展现”里给的代码是没有images这行的,只在“搜索结果出图”代码中有。现在两处给的代码是一样的了,都有images这行,可能百度觉得没有图片很难看,还是建议放图片。

熊掌号对收录、排名真有帮助吗?

就我的观察,开通熊掌号对所绑定的网站收录、移动排名都确定是有帮助的。
下图是我博客在熊掌号后台显示的收录情况:
百度熊掌号有利于页面收录
99%以上的页面被收录。
当然,我这个博客页面数太小,而且以前收录就不错,不大能说明问题。下图是另一个绑定网站的收录情况,这个网站规模大一点,以前内页收录很少:
熊掌号绑定网站收录提高
收录也达到60%以上。
熊掌号对移动搜索排名的影响,我想稍微注意一下百度移动搜索结果的读者就肯定能发现,带有熊掌号标志的页面现在明显增多了。虽然肯定没达到百度的80%目标,对排名提升的力度已经很大了。下图是我博客4月初提交完页面后一个月的展现和点击数据:
百度熊掌号对移动搜索排名有明显影响
虽然其中是有些水分的,从流量来源关键词看,明显有人在做刷搜索量,刷点击之类的测试,但排名和流量提升是肯定的。
我这个博客在搜索“SEO”时,PC端排名在第一页4至7、8名之间晃,移动端排名以前类似,但现在爬到了前3,偶尔出现在第一。当然,这和地域、手机、浏览器都有关系,不知道读者们搜索“seo“ 时,SEO每天一帖在第几位?移动端排名的提高和我开通熊掌号应该有一定关系。
一个值得关注的点是,百度排名算法开始考虑页面是与哪个熊掌号、哪个作者关联,熊掌号开通时的资质审核、微信微博头条号的关联、粉丝数据等固然说明熊掌号的可靠程度和影响力,但一个熊掌号关联多个网站将是很常见的现象,同一个熊掌号下的不同网站质量很可能差异很大,会不会质量低的网站影响其它网站排名呢?会不会出现购买熊掌号粉丝之类的手法?有待观察。

熊掌号是百度SEO的未来?

熊掌号还有不少功能,我还没机会试用,这里就不细说了,但这些功能的潜力还是挺大的。
比如原创保护。抄袭者获得排名是百度被骂的重要原因之一,熊掌号的原创保护机制也许会有帮助。由于申请原创保护需要一个月内有10篇以上新内容,我没资格申请。希望百度能放松这个要求,创作量小和创作质量并没什么本质关系。
再比如“精选问答”,看起来也挺不错,不过只对企业开放,我也用不了。
再比如熊掌号主页的内容设计,除了前面抓图中的动态和文章,还可以添加视频、产品、服务、支付等内容。
再比如后台的粉丝管理、留言、群发消息等功能,貌似就是个自媒体平台。
姑且不看这些潜在应用,仅仅排名优势就很吸引人了。
应该说,熊掌号将搜索、账号、用户管理结合起来,确实是百度在搜索领域为数不多的创新性产品之一。之前于此有些类似的东西,我只能想起Google的rel=author tag,将页面、作者、Google+账号结合起来。Google的rel=author tag项目已经停止了,原因是站长加这个标签的积极性不高,使用的网站太少。这是个先有鸡还是先有蛋的问题,rel=author tag对排名没影响,站长没动力使用,没人使用,就很难给予排名优势,没优势,就更没人用……
百度熊掌号则不同,短短的几个月时间,熊掌号关联网站排名已经获得提升,SEO们将踊跃使用。
所以,熊掌号是否会是百度SEO的全部未来不好说,但熊掌号将成为百度SEO的标配。

SEO能做到什么时候?

作为一个年近50的SEO人,我也经常会考虑,SEO到底能做多久?我已经转换过职业,年轻时的工作和互联网一点关系都没有,以后还需要再次改行吗?
SEO是典型的依附于其它事物才可能产生的职业,这是比较令人担心的。以前说过,只要有搜索引擎存在,就有SEO存在,似乎也没什么好担心的。
但同时不得不考虑的是,SEO所依附的东西本身年龄就不大,而且不是生活所必须。通过搜索引擎获得信息,现在貌似是大部分人的生活必须,其实才只有二十几年的历史,与衣食住行这些需求比起来,搜索不值一提。搜索只是更好地获得衣食住行的途径之一,本身并不是个需求,如果以后不需要现在这种形态的搜索就能获得信息,人们马上就会抛弃搜索。
比如说,如果以后需要知道什么信息,搜索引擎(这还是不是搜索引擎也不好说了)只给出一条结果 —— 符合要求的最适合的那条,SEO恐怕就没了。
各种统计数据都表明,搜索引擎目前还是互联网用户使用最多的服务之一,仅次于即时通信。这个地位多年来没有变化。具体数字可以查看易观或CNNIC的调查。不过这不能直接说明SEO流量情况。
要想大致判断SEO还能做多久,需要知道两点:
  • 搜索引擎的自然流量趋势是什么样的?是增长中?还是下降中?
  • 网站流量中来自搜索引擎的自然点击比例是多少?是增长中?还是下降中?
这两天研究了一些数据,分享一下。
BrightEdge最新的2017年美国网站流量来源统计表明,搜索引擎的自然搜索流量占网站总流量来源的51%,和2015年的比例一样。不过付费搜索流量从2015年的9%提高到了14%。如下图:
网站流量来源占比
这是所有网站的平均数。具体到某个特定网站,数字肯定不一样。查一下Alexa的Top网站数据可以看到,流量最大的那些网站,搜索流量占比通常都是比较低的,因为流量大的网站大部分是自带流量的社交媒体,或综合门户,搜索流量一般占不到10%。真正的电子商务或信息类网站就不同了,品牌知名度高如亚马逊,搜索流量也占到21.8% ,维基百科更是占到66.7%。唯一有点意外的是,京东的搜索流量只占到1.9%。
不同行业,搜索流量占比也不相同。如下图:
不同行业网站搜索流量比例
蓝色是自然搜索,黄色是付费搜索(PPC)。旅游行业自然搜索流量只占40%,健康护理行业高得多,占到73%,教育行业62%。
中文网站没有看到权威统计数字,但应该类似,有可能比美国网站比例低一些。易观以前报道过中文旅游行业网站搜索流量占40%,现在根据Alexa的数据,携程的搜索流量应该在21%左右,马蜂窝30%左右。
我所看到的普通网站,自然搜索流量占40-60%是常态,当然,占到60%是比较危险的,来源过于单一。虽然互联网人士都说流量碎片化,来源多元化,但数据表明,搜索依然是最大的网站流量来源,而且比例下降并不明显。
比例下降不明显,搜索量又有什么变化呢?
2017年12月Moz的一篇帖子发布了与jumpshot合作得到的Google搜索量和点击量的一些数据。
下图是2015年11月到2017年10月Google(美国)搜索量变化,橘黄色是PC端,蓝色是移动端:
谷歌搜索量变化
排除季节性波动,过去两年美国谷歌搜索量只有一点增长,2017年总体上比2016年增长13.4%。
实际点击量趋势如下图,蓝色是自然搜索,红色是PPC:
谷歌搜索点击量变化
可以看到,实际点击量是有小量下降的。2017年1月点击量达到最高,之后即使考虑到季节波动,2017年总体也比2016年下降了。搜索量小幅上升,点击量小幅下降,这说明点击率必然下降了。如下图,蓝色是自然搜索点击率,红色是PPC:
Google搜索结果点击率变化
可以看到,2016年11月,自然流量点击率出现突然下降,从6.x%下降到5.x%。由于不是逐渐下降,这肯定不是搜索质量或用户习惯之类的因素,而是页面排版之类导致的。
下图是没有导致点击的搜索量,蓝色是移动端,红色是PC端:
没有产生点击的搜索
可以看到,PC端点击率没有什么大变化,未产生点击的搜索比例维持在34%左右。但移动端在2016年11月未产生点击的搜索从42%提高到57%左右,说明自然搜索点击率的下降主要是移动端搜索结果页面变化引起的。
另一个值得一提的是,从实际点击量图可以看到,自然搜索流量始终是PPC流量的20倍左右。
总体上:
  • 自然搜索依然是最大的流量来源,比例依然远超其它来源。
  • 虽然搜索量还在增长中,但增长幅度已经不大。
  • 由于点击率的下降,实际自然搜索流量可能还会下降。
所以,对SEO新人来说,这已经不是一个快速增长中的行业,不必寄予10年前那种热情和希望。对已经在做SEO的人员来说,倒也不必过度担心,至少未来5-10年自然搜索流量依然会是最大网站流量来源,搜索流量也并没有出现断崖式下降,搜索结果页面改个版点击流量还可能会继续上升,SEO依然有至少5-10年的不错日子。
10年以后会怎么样,谁也不知道。不过那时候我也该退休了,不操那个心了。

子域名和子目录哪个更有利于SEO?

前几天看到Barry Schwartz的一篇帖子,记录了SEO人员和Google内部人员关于子域名和子目录哪个更有利于SEO的争论,挺有意思的,这里介绍一下。倒不是这个问题有多大SEO价值,而是争论双方角色变化与观点、说法变化挺有意思。
子域名和子目录应该用哪个以前就讨论过,我的看法到现在也并没什么大变化。简单说,通常情况建议用子目录,诸如下面这些情况建议使用子域名:
  • 子域名下的内容足够多,足以成为独立网站。如分类广告的各地分站。
  • 产品线差异足够大。大品牌也经常用独立域名。
  • 大品牌的各国家或地区分站。当然也可以使用独立国家域名。
  • 品牌、用户或产品需要。如B2B平台的用户首页,很多用户偏好子域名。
  • 中文网站,想要充分利用百度的首页优势。
总之,有特定需求、有明确原因的时候用子域名,其它情况还是用子目录。这两个技术上没有什么大区别,之所以通常使用子目录,最大的原因是因为子域名基本上是被搜索引擎当作独立域名处理的,多用一个子域名就相当于得多推广一个网站,如果内容主题集中,页面不多,何必分散精力呢?
事情是这样的。Google现在负责与站长社群沟通的John Mueller在一个标题为“Subdomain or subfolder, which is better for SEO?”的视频中说,使用子域名还是子目录,按你公司业务需要和服务器设置所需做就行了,两个都挺好,都能获得排名。有时候使用目录更方便,Google爬行也更容易,因为知道页面是在同一个服务器上的,用户也容易判断这些页面是同一个网站的一部分。有时候使用子域名更方便,比如网站上增加博客或商城,用子域名可能挺麻烦。最重要的是适合自己的情况和长远计划。
这个回答符合近年来Google的一贯风格,中规中矩,比较笼统,挑不出毛病,也没什么大用。
即将离开Moz的Rand Fishkin在twitter上表达了对这个回答的失望,他认为子目录几乎总是比子域名更有利于排名。
接下来,John Mueller和Danny Sullivan都加入了争论。John Mueller大概在内部四处问了问,在Twitter上坚持自己的回答,并且说,Google没理由在这个问题上隐藏什么或者误导SEO们。
然后有人问刚刚加入Google的Danny Sullivan有什么看法。Danny Sullivan回答,John Mueller的视频就是最新的、解释这个问题的,就是官方意见。
Rand Rishkin又在Twitter上怼了Danny Sullivan一下:如果是一年前的话,你自己肯定也会说,视频对这个问题并没解释清楚,甚至并没有回答实质问题。如果你们不方便透露,可以直说。你们如果说,抱歉,涉及系统工作原理,没有授权不能多说,99%的SEO是更愿意接受的。
Danny Sullivan回答:你认为的问题的核心是,哪个排名更好,你认为是子目录。(Danny Sullivan对问题的核心是很清楚的)。有时候是这样,有时候不是,取决于你自己的情况和用户需求。(换句话说,又绕回去了,最终还是看具体情况)
后面又有几个SEO问到底哪个好,Danny Sullivan的回答基本上就是要看情况,每个网站的情况是不同的,以前我在那一头的时候(加入Google前,作为SEO领袖的时候)也会这么想、这么问,现在站在更全面的角度看,确实,具体情况千差万别。
又有看热闹不嫌事大的人继续问Danny Sullivan,如果是半年前,你会推荐子域名还是子目录呢?Danny Sullivan回答,半年前我会推荐适合你情况的做法。很多情况下,是子目录,在其它情况下,是子域名。(是不是又绕回去了?)
最有意思的是Danny Sullivan的立场。看过以前Danny Sullivan的文章、SMX大会议题主持等内容的SEO通常都会感受到,Danny Sullivan是个喜欢刨根问底的人,问问题也挺犀利的。在加入Google成为内部人后,我猜想一定经过了公关培训,什么该说,什么不该说,该怎样说,现在与其它 Google员工们趋同了。总体上,他们的回答都是面面俱到,不把话说死,最后都能归结到对用户好的就是应该做的,让你自己看着办。
其实这也是可以理解的。我们SEO不能寄望于搜索引擎员工把什么东西有利于SEO说得很明确,说得模糊还那么多人钻空子呢,说明确了就更麻烦了。所以有时候,我们对搜索引擎内部人员的话需要听话听音,仔细体会,再加上连蒙带猜。

23个统计数字揭示搜索用户行为

上星期写了用户访问数据影响搜索排名,前两天看到Randfish发了篇帖子:《23个统计数字揭示搜索用户行为》,数据很有意思,拣重要的内容翻译一下供国内SEO们参考。
原文很长,要了解细节的请读原文。下面只是挑几句结论,加上一些自己的感想。
统计数据来源于Jumpshot的点击流数据,记录的是美国用户浏览器访问和点击情况,不是来自搜索引擎。

1)每个月在Google.com有多少次真正搜索?

就jumpshot设备能记录分析的数据,每人每天做了3.4次搜索。换算下来,相当于美国用户在Google.com每个月进行了400-600亿次搜索。

2)每次Google搜索进程平均多长时间?

从开始搜索,到搜索结果页面打开,到点击结果页面,到点击返回按钮回到结果页面,到重新点击另一个结果,平均不到1分钟时间。

3)多少用户一天里进行至少一次搜索?

只有15%的美国用户在一天里做过至少一次搜索。这个数字不高啊。好的一面是,还有很大增长空间。
45%的用户在一个星期里至少做了至少一次搜索,68%的用户在一个月里做了至少一次搜索。

4)多大比例的搜索导致了一次点击?

66%的搜索导致了一次或多次点击。34%的搜索啥也没点。
和百度一样,Google也愿意把用户留在自己网站上。不同的是,百度是把用户送到自己的内容页面去,如百度百科、知道,Google是在搜索结果页面上直接回答问题。

5)多少比例的点击是点击了搜索广告?

只有3.4%点击的是AdWords搜索广告。在百度上是否更高?Google搜索广告占的面积现在也是越来越大了。

6)多少比例的点击是去往地图/本地结果?

0.1%的点击是点击到地图/本地结果。
这里指的不是在maps.google.com上的地图搜索,而是在www.google.com搜索,结果点击去了地图或本地结果。

7)多少比例的点击去了知识图谱(knowledge graph)?

有大致38%的搜索会显示知识图谱,也就是搜索结果页面右侧经常出现的背景知识。但只有0.5%的点击去了知识图谱里的链接。知识图谱就是那些在搜索结果页面就能看到答案,所以用户不必再点击的那类结果之一。
百度也有类似结果,好像也叫百度知识图谱。

8)多少比例的点击去了图片区域?

11%的Google搜索结果会出现图片结果,3%的点击去了这部分图片。
这个应该不是百度特有的图文展现那种,而是展示一排图片的那种。图片还是很能吸引眼球的。

9)多少点击去了新闻结果?

没统计出来。原因是统计数据期间,Google新闻结果的格式有变化,从News Results改成了Top Stories。

10)多少点击去了twitter区块?

7%的搜索结果显示一个Twitter结果区块,有0.23%的点击去了twitter。

11)多少点击去了Youtube?

6.3%的搜索结果有Youtube内容,1.8%的点击去了Youtube。
Youtube比twitter的吸引力高多了。或者应该说是视频的吸引力。

12)多少点击去了gmail?

0.16的点击去了gmail里的邮件。
这个是Google特有的,只有在用户处于登录状态时才显示gmail邮件内容。其实挺方便的,比如搜索一下某个航班或酒店,搜索结果里会出现自己已经预定的航班、酒店邮件。

13)多少点击去了Google Shopping结果?

9%的搜索会出现Google Shopping内容,0.55%的点击去了Google Shopping。
Google Shopping出现时,在页面顶部占很大一块,而且图片显示很吸引眼球,看来点击结果也不错。

14)多少点击去了Google自己的内容?

包括地图、gmail、图书、Google+之类的,去了这些Google自己内容的点击是11.8%。
相比之下,百度搜索去了自己内容的点击肯定更多,搜索结果中出现的百度百科、知道、经验等等,有时候比例高得惊人。请参考百度霸屏这篇帖子。

15)美国主要搜索服务各自所占比例?

  1. Google.com 59.30%
  2. Google Images 26.79%
  3. YouTube.com 3.71%
  4. Yahoo! 2.47%
  5. Bing 2.25%
  6. Google Maps 2.09%
  7. Amazon.com 1.85%
  8. Facebook.com 0.69%
  9. DuckDuckGo 0.56%
  10. Google News 0.28%
Google图片搜索比例很大,远超过被认为是第二大搜索服务的youtube。
雅虎和必应的使用比例貌似惨不忍睹。当初雅虎放弃自己的搜索技术并没有给雅虎和微软带来市场份额。

16)关键词搜索需求分布情况?

前1百万查询词占所有搜索的25%,前1千万查询词占所有搜索的45%,前10亿占了90%。如下图:
关键词需求分布
所以,长尾还是挺长。

17)PC和移动查询词平均包含几个单词?

典型用户使用的查询词平均包含3个单词。PC用户查询使用的单词数比移动用户稍长。但也只是稍长,并不是移动用户因为输入困难而使用短得多得查询词。

18)多少比例的查询是以问题的形式?

8%的查询是以问句的形式出现,比如“明天会下雨吗”这种。
问句式查询近年来占比越来越大,是个可以挖掘的新机会。常见的问句形式包括
  • xxx是什么?(如SEO是什么?)
  • xxx怎么做
  • xxx哪个/哪家最好
  • xxx是什么时候
  • 哪里有xxx
  • 为什么xxx
和新闻写作的5个W、1个H(Who, What, When, Where, Why, How)是很相近的。

19)移动和PC搜索中付费及自然结果的点击率区别?

在移动搜索中,40.9%的搜索产生自然排名点击,2%的搜索产生付费点击,57.1%的搜索什么点击也没有产生。
在PC搜索中,62.2%的搜索产生自然自然排名点击,2.8%的搜索产生付费结果点击,剩下的35%没点击。
所以,SEO流量远远超过PPC,但企业花在PPC的钱通常远远超过SEO。我见过每个月花几十万做PPC的公司说,他们愿意在SEO每个月花100块钱。

20)多大比例的查询,用户没有点击任何结果,就查询其他词?

用户查询某个词,没看到什么合适的答案,转而搜索其它词,或者点击搜索引擎列出的相关搜索,这种比例占多大?统计数据是18%的查询会这样。

21)多少查询导致不止一次点击?

用户在新窗口打开结果页面(百度就不用了,页面缺省就是在新窗口打开),或者点击返回按钮再点击另一个结果,有21%的搜索会产生这种不止一次点击的情况。

22)弹回并点击其它结果的有多少?

用户点击一个结果页面,跳出返回搜索结果页面,点击了另一个结果,也就是上面21条中的第二种情况,8%的搜索会发生这种情况。
这也就是跳出率可能影响页面排名的情况。

23)有多少点击是去了非Top 100网站?

除了Google自己的内容,有多少点击是去了top 100网站?也就是那些巨大的站。有多少点击去了非top 100网站?也就是普通点的网站。12.6%的点击去了搜索流量前100名的网站,剩下87.4%给了芸芸众生。
还好,长尾还在,如果一半流量给了top 100网站,普通做SEO的就没法活了。

用户访问数据是否影响搜索排名?

用户访问数据是否影响页面的搜索排名?这是个老话题。早在11年前,我就在SEO每天一贴写过Google可能在排名算法中考虑用户行为方式。
不过,到目前为止,所有就这个问题发过言的Google工程师都明确否认用户访问和行为数据是排名的直接因素。这里要注意他们的用词,通常他们否认的是 – 直接因素。而我们SEO观察到的情况是,用户访问和行为至少会间接影响页面排名。
在搜索过程中,主要的用户访问、交互行为包括点击率、跳出率、用户停留时间、访问深度等,广义点看,还包括了在社交媒体上的分享、评论等行为对SEO的影响。

点击率是否影响页面排名?

首先,搜索结果中页面的点击率肯定是影响排名的,不然就没有前几年的百度点击器和现在的所谓百度快排了。Google也同样,虽然公开场合都否认是直接因素,但数年前就有Google工程师当面和我说过,点击率是会影响排名的。也许不是直接排名因素,但可以是校验因素。
去年底,Larry Kim的统计表明:
  • 排名靠前的页面点击率有越来越高的趋势,从2016年4月的22%上升到9月的24%
  • 超过所在位置平均点击率的页面容易获得1-4位的排名,比如超过平均点击率20%的页面容易被排到第一位
  • 比平均点击率低的页面一般排在6-10位
关于所在位置平均点击率是指,每个排名位置,有个大致稳定的点击率,比如第一位,通常点击率30-40%等等,如下图:
搜索结果页面点击率分布
还不明白的,请参考《SEO实战密码》第2章,第6小节,用户怎样浏览搜索结果页面部分。
当然,搜索引擎要找到办法剔除用户数据中的噪声、作弊,并考虑到不同场景下的特殊性,不然,点击器或快排之类的就会大行其道。就我所知,有不少人试过把百度点击器的同样方法用在Google排名上,但没有看到明显效果,Google的反作弊能力高一些。现在Google算法中很可能加强了点击率等用户数据的影响,不知道有没有人在继续实验Google点击器?

修改页面标题就能提高页面排名?

那么问题来了,如果页面有了一定的排名,比如爬到了第一页下半部分,是不是修改一下页面标题,更吸引眼球,更吸引人点击,就能进一步提高页面的排名?
答案是,经常是会有效的。不知道有几个读者注意到,近几个月,我在这个博客的一组页面上,大量、频繁更改、实验页面标题,并观察记录排名变化,我的结论是,用个更好的标题,点击率提高,确实能提高排名。
而且我发现,百度会从同一个网站上挑选几个相似页面,目标关键词几乎相同,轮换给予排名,看哪个效果更好。百度经过一段时间的数据积累,点击率高的,保持排名,点击率低的,页面可能会跑到很后面去。
再进一步,是不是我的页面是关于SEO的,在标题上写”免费、高清、无码苍老师作品+SEO“就能排名巨牛了?显然,也没这种好事。

跳出率和停留时间是否影响排名?

吸引到点击以后怎么办?用户是否真的愉快地看到了苍老师,搜索引擎也是会评估的。
Larry Kim的统计还表明:
  • 跳出率在76%以下的页面更可能排名在1-4位,跳出率78%以上的,更可能出现在5-10位。
  • 用户在网站的停留时间长的更可能排在1-6位,他的数据是长达8分钟多,这个有点长。停留时间短的就从第7往后排了。
当然,搜索引擎一定会注意到应用场景,上面的统计数字并不是绝对的。一个博客,忠实读者来了就是看最新文章,然后就走了,越忠实,可能跳出率越高。一个论坛就不能是这样。一个查询汇率页面,用户来了,瞟一眼就知道答案了,跳出率高、停留时间短,但不说明用户不满意。
这个我也做了实验。怎么提高停留时间呢?最简单的方法是,把页面弄长点呗。我把两个页面内容扩充了很多,用户从这两个页面进入时的停留时间加长了。页面在百度的排名跳动一段时间后,爬到比以前高得多的位置。但这个几乎是孤证,不能说是结论,只能当个参考。
(注:我这只是做个实验,举个例子。真正提高停留时间、访问深度的方法是改善用户体验,不是把页面弄长点这么简单。)
所以,建议SEO们查看一下百度站长平台、Google站长工具、流量统计,找出用户访问数据难看的页面,看看能不能优化一下,也许有意想不到的效果。

搜索引擎怎样获得用户访问数据?

有些数据搜索引擎从结果页面就能得到,比如点击率。
有些可能需要借助其它服务,比如百度和Google都有自己的流量统计服务,而且是最流行的流量统计服务。但是,搜索引擎,包括百度和Google,都声明,他们的排名算法中不会使用自己的网站统计服务或浏览器数据。前几天,Eric Enge的实验表明,Google不会利用Chrome用户访问数据发现新URL。
而且,很多网站完全不使用百度统计、Google Analytics这类的服务,那么,如果我们观察和统计的数据都表明,用户体验、交互等访问行为影响了搜索排名,搜索引擎从哪里获得这些用户访问数据?这可能就会牵扯到下一篇帖子的主题:人工智能将彻底改变SEO。

百度官方号(现在正式名称是熊掌号)与SEO

11月6号注:下面帖子本来是9月25号发布的。发出来没多久,百度的朋友联系我,希望我先把这篇帖子撤下来,因为有些细节还没确定,最好等官方号正式发布了再发帖。前几天已经正式发布了,原定的官方号改为“熊掌号”,主要功能差不多,所以现在再发出来供参考。同时百度站长平台升级为百度搜索资源平台,里面的工具有了一些改版。
熊掌号申请貌似没有国籍限制,我登录百度搜索资源平台后,显示“熊掌号的搜索资源提交资格已被审核通过!”,可能是百度的朋友已经帮我审核了,不过还要自己开通服务,开通过程中还要上传手持身份证的照片,现在还懒得弄,有时间了再开通看看效果吧。不能开通微信公众号,也许可以把熊掌号当作自媒体平台。
前几天在北京参加第7届SEO排行榜时,下午和百度搜索主任架构师谭待、百度MIP负责人高磊等人在会场附近茶馆私下交流了一下百度官方号的问题,听到一些内部消息,在这里分享一下。
想到写这个题目时,首先脑子里反应的是“百度官方号揭秘”或者“百度官方号内幕”之类的帖子标题,然后心里一激灵,标题党害人不浅啊,看多了这类标题,即使我一直提醒自己不要做标题党,潜意识里还是多少会受到影响。以后一定要时刻注意。

什么是百度官方号

相信不少站长在百度站长平台收到了站内消息:
百度官方号取代原创保护
百度站长平台的原创保护功能迁移到百度官方号,百度官方号正在内测,收到邀请的站长建议赶紧尝试。
虽然我首批收到内测邀请,然并卵,目前百度官方号注册是通过百家号系统的,而百家号是需要国内身份证、电话等认证的,所以和我的博客不能备案、主机不能搬到国内,我也不能开通微信公众号一样,我现在也无法开通百度官方号。甚至前些天发现我的微信号不但不能向别人转账,连别人转账或发红包给我都不行了,也是因为没有实名认证,而我又没有国内身份证,无法认证,所以很多国内方便、流行的东西我用不了。
所以百度官方号后台是什么样子,这里暂时无法分享了。
百度官方号到底是什么可以到百度官方号说明页面看一下,摘抄几句重要的:
官方号是帮助互联网上所有内容和服务提供者实现搜索用户留存,并且为其赋予用户运营能力,提供多样的用户运营途径,从而实现网站的多元化变现。(Zac插一句话:这貌似是个病句?)
网站开通官方号后,每一个网站将在百度建立一个官方号页面,新用户在首次浏览网站信息后,可以关注官方号称为官方号粉丝;老用户下一次可以通过百度首页、搜索结果页或者多重用户运营入口直接进入网站官方号页面,浏览内容或者消费服务。
通过官方号提交入口的链接,经过质量校验后可以享受快速收录的特权,对于符合质量标准的页面,会同时在搜索结果页和官方号主页中展现,再配合官方号的运营给站点提供更多收益。
所以这是一个:
  • 用户可以关注的号,所以能留存搜索用户。以后用户想找你,在“我的关注”就能找到。
  • 搜索用户在搜索结果页面上就可以关注你的官方号,也就是说,有官方号的页面在搜索结果中的展现方式必然是不一样的,至少得多一个关注按钮。
  • 有官方号的页面有快速收录的特权。与百度工程师的交流表明,有官方号的页面也有排名的优势。
  • 是否能实现收录、排名的特权,页面是需要经过质量校验的。这是一个人工+程序的混合过程。
所以,SEO们不得不关注百度官方号,进入官方号系统的页面在收录、排名、展现上都将有优势。

百度官方号实例

比如搜索“红烧肉”,最上面的轮转图大部分是有官方号的页面:
百度官方号页面
结果下面列出了网站名称和一个挺显眼的网站图标。这些结果也大部分是百度MIP页面,点击结果,会进入MIP页面:
用户可以关注百度官方号页面
可以看到右上角有个“关注”按钮,用户可以关注,成为粉丝。点击关注右侧的下拉菜单,可以看到访问官方号的选项:
用户可以关注百度官方号
官方号页面是这个样子:
(11月6号注:最后确定的熊掌号有的时候还在关注按钮下面还显示百度认证信息)
百度官方号实例
官方号是在author.baidu.com这个子域名下,站长可以在官方号中发表文章,与微信公众号挺相似。
官方号页面即使不是MIP页面,也在展现上与普通页面有很大差别,而且似乎更为显著,比如这个:
(11月6号注:里面的“官方号”字样改为了“熊掌号”,其它倒没有什么大变化。)
百度官方号页面展现
这么明显的图标、关注按钮,相信对点击率、用户留存率都有相当大的影响。

关于百度官方号的一些内部信息

通过和谭待他们的交流,还了解到一些百度官方号还没公布、其它地方看不到的信息。
官方号平台可以直接发布文章,用户可以关注,类似微信公众号,不过百度官方号带来了用户、移动搜索和网站内容的联通,似乎比公众号更为开放。现在能看到的官方号页面显示的都是百度百家号的文章,以后百家号应该是直接合并到官方号。
对SEO更有意义的是,官方号也会和网站页面产生关联。站长可以通过官方号以类似sitemap的形式提交页面,页面上也可以加上一个标签,声明这个页面属于某个官方号。这样的页面经过质量校验后,在收录、排名、展现上都比普通页面有优势。
前面提到,原来的原创保护即将转移到百度官方号,所以提交的页面要求是比较高的,很可能需要是原创的。质量校验的第一关显然就是开通账号时的人工审核。其后通过官方号提交的页面很可能是巨量的,质量上也是参差不齐的,肯定要由算法检验质量。
为了让站长了解自己提交的页面质量是否符合标准,提高透明度,官方号有可能在后台显示一个大致的页面质量评级,甚至更多信息,如果提交的页面并没有获得收录、排名、展现等方面的优势,站长也可以查看一下质量评级,心里大概明白是为什么。(11月6号注:这个指数现在命名为熊掌号搜索指数:是由您发布的内容质量、用户喜爱、原创能力、活跃表现、领域专注五个维度的计算而得出的客观评分结果。)
即使目标关键词没有获得好的质量评级,因此没有排名和特殊展现,在搜索品牌词、公司名,或者直接搜索URL时,通常还是会得到官方号的展现,这对很多企业老板也是挺管用的。
站长通过官方号提交网址时,虽然可以自己选择提交哪些页面,但也要谨慎,质量不够就不要提交了,如果提交的页面大量存在质量问题,官方号等级可能会下降。
原来百度预定9月26号会举办一个官方号发布会,现在推迟到10月份了,可能是10月12号或者31号。我可能会去参加,到时候有更多信息再来分享。

人工智能在搜索算法中的应用

2016年以来,IT行业最大的技术突破应该是人工智能了,不仅在一年左右时间,在最后一个人类曾经自以为机器很难战胜人类的游戏项目上完胜人类,前几天更是出现了逆天的AlphaGo Zero,完全不用借鉴人类知识,自学3天就超越了人类。
人工智能领域最牛X的公司,国外是Google,国内是百度。都是搜索引擎。这恐怕也不是什么巧合,而是因为搜索引擎是最适合开发人工智能的公司,他们拥有最大量的数据,包括文字、图片、视频,还有地图、路况、用户使用数据等等。
搜索引擎公司的AI成果在多大程度上运用到了他们的核心业务-搜索中?他们都没有明确地对外说明,从搜索工程师的零碎发言中猜测,至少目前还没有大规模使用,并没有改变搜索算法的基础。毕竟人工智能虽然概念存在了几十年,但效果突飞猛进只是近几年的事,还没有出现通用人工智能,在围棋这种规则简单明确的领域中牛X,迁移到规则模糊的系统中,比如搜索,还需要一些时间。
但我想,人工智能大规模应用于搜索算法是早晚的事。据说以前百度大搜索部门和人工智能/深度学习部门之间是有些矛盾的,现在吴恩达离开了百度,陆奇对百度又进行了很多人事调整,搜索部门对人工智能的排斥也许就大大降低了。
其实人工智能已经在搜索算法中有所运用。举两个例子。

百度DNN模型

前几个月看到了百度朱凯华的一篇《AI赋能的搜索和对话交互》演讲报道。数年前和朱凯华还做过一次访谈,那时候他还是Google的主任架构师,是著名的熊猫算法的主要参与者之一,现在他是百度的首席架构师了。演讲内容很多,感兴趣的搜索标题就能找到全文,很值得深入读一下。这么长时间SEO行业很少人注意到这篇这么有价值的关于搜索算法的公开信息,还是挺意外的。
演讲里提到了百度2013年上线的DNN模型,极大提高了语义相关性的判断范围和准确性,2013年百度相关性提高的34%来自于DNN模型,2014年全年相关性提升的25%来自DNN模型。DNN模型使用的就是深度学习方法,通过100亿的用户点击数据训练模型,有超过1亿个参数。下面介绍的Google RankBrain是2015年上线的,所以百度是世界上第一个将人工智能应用到实际搜索算法中的公司。
下图是DNN训练的示意图:
百度DNN模型是人工智能在算法中的第一次应用
简单说,就是对同一个查询词,模型分析了真实用户点击了的页面的标题,和没有点击的页面标题,从而更深入理解哪些标题是满足了用户需求的。经常出现的情况是,页面标题并不包含查询词,用户却更愿意点击这些页面,说明这些页面满足了用户需求,这些页面的标题,即使不包含查询词,也是与查询词语义相关的。这是经典的页面-关键词相关性算法无法计算出来的。
演讲中提到的例子:
百度DNN模型案例
在DNN上线之前,用户搜索“ghibli车头如何放置车牌“时,由于相关信息很少,没有什么页面是以这个查询词为标题或者页面出现这些关键词的,所以搜索结果质量不高,传统搜索算法只能按关键词匹配返回一些ghibli相关信息,却没几乎有“车头如何放置车牌”的信息。
(注:看到这里的读者不用去百度搜索“ghibli车头如何放置车牌”了,您看到的将是被这篇帖子污染的搜索结果,会看到本帖,以及被转载、抄袭的本帖。)
DNN上线之后的搜索结果是这样的:
百度DNN模型上线效果
可以看到,搜索结果中还是没有以“ghibli车头如何放置车牌“为标题的页面,但解决了用户的需要,算法理解了“前”、“前面”和“车头”是一个意思,“放哪里啊”、“怎么装”、“咋挂”和“任何放置“是一个意思,所以”ghibli车牌咋挂“这种页面回答了“ghibli车头如何放置车牌“这个查询,虽然他们包含的关键词是不一样的。
这种对相关性的理解不是传统以关键词匹配为基础的搜索算法能算出来的,而是真实用户的点击数据告诉搜索算法的。用户搜索“ghibli车头如何放置车牌“时,经常点击”ghibli车牌咋挂“、”ghibli前面车牌照怎么装“这些页面,DNN模型被训练后知道,这些词之间是语义相关的。

Google RankBrain

2015年上线的Google RankBrain解决的也是对查询词的深入理解问题,尤其是比较长尾的词,找到与用户查询词不完全匹配、但其实很好回答了用户查询的那些页面。和百度DNN是非常类似的。Google没有具体说明RankBrain的训练方法,估计和百度DNN也是类似的。
2015年RankBrain上线时,15%的查询词经过RankBrain处理,2016年所有查询词都要结果RankBrain处理。
Google自己经常举的RankBrain例子是这个查询:
What’s the title of the consumer at the highest level of a food chain
这个查询词相当长尾,完全匹配的结果比较少,而且查询中的几个词容易有歧义,比如consumer通常是消费者的意思,food chain也可以理解为餐饮连锁,但这个完整的查询和商场、消费者、饭馆之类的意思没有任何关系,RankBrain能理解其实用户问的是食物链顶端的物种是什么名字。同样,搜索结果不能按照传统的关键词匹配来处理。
这种长尾查询数量很大,每天Google收到的查询里有15%是以前都没出现过的。这种查询要靠关键词匹配就比较难以找到高质量页面,数量太少,甚至没有,但理解了查询的语义和意图,就能找到满足用户需求的、关键词并不完全匹配的页面。
对SEO的影响以后再详细写,这里只是先简单提示一下:页面要包含关键词,这在目前的关键词优化过程中是必然的,现在搜索引擎能理解两句不同的话意思是一样的了,以后创作或编辑页面内容时,是不是还一定要包含关键词呢?
2019年2月10号更新:Google工程师Gary Illyes在Reddit上举办的一次问答活动上这样描述RankBrain的工作原理:
RankBrain is a PR-sexy machine learning ranking component that uses historical search data to predict what would a user most likely click on for a previously unseen query. It is a really cool piece of engineering that saved our butts countless times whenever traditional algos were like, e.g. “oh look a “not” in the query string! let’s ignore the hell out of it!”, but it’s generally just relying on (sometimes) months old data about what happened on the results page itself, not on the landing page
就我的理解,基本上和百度DNN模型一样,对某些查询量很小,甚至以前没出现过的查询词,RankBrain使用历史搜索数据(搜索结果页面上的点击数据,不是网页本身数据)预测用户最可能点击哪个页面。

人工智能什么时候才能全面影响搜索算法?

过去一两年,人工智能是最火的并且快速进入实用的技术。以前写过人工智能将彻底改变SEO,也介绍过人工智能在搜索算法中的实际应用,但需要说明的是,到目前为止,人工智能在搜索算法中的应用并不广泛。影响人工智能在搜索算法中大范围使用的最主要因素可能是,搜索引擎工程师不知道人工智能系统到底是怎么做出判断的,然后又导致另一个重要问题:很难debug。

人工智能是个黑盒子

用不太严格但容易理解的方式说,深度学习就是给现有数据(大量数据)打标签,然后系统自己总结数据和结果(也就是所打的标签)之间的关系,面对新数据时,就能依据自己总结的规律给出判断。对围棋来说,无论历史棋局还是自我对弈,AlphaGo知道盘面,也知道结局(也是一种标签),系统就会总结规律,面对新盘面时判断赢棋的概率。但AI系统找到的是数据的哪些特征,与结果之间是怎样的关系,连创造AI的工程师也不知道。
所以,现在的人工智能系统是个黑盒子。我们知道AI判断的正确率高,但不知道为什么,不知道是怎么判断的。
搜索算法中的AI也是如此。百度搜索工程师的说法很少见到,只是知道百度现在All In AI了。Google工程师明确表示过,他们对RankBrain到底是怎么工作的也不太清楚。在这种情况下,在算法中大量使用人工智能就比较麻烦了,一旦出现异常结果,不知道是什么原因,也无法debug。
写这篇帖子是因为前些天看到一篇纽约时报的文章“AI能学会解释它自己吗?”,非常有意思。一位心理学家Michal Kosinski把20万社交网络账号(是个约会网站)的照片及个人信息(包括很多内容,如性向)输入面部识别人工智能系统,发现人工智能在只看到照片的情况下判断性向准确率很高。人工通过照片判断一个人是否同性恋的准确率是60%,比扔硬币高一点,但人工智能判断男性是否同性恋准确率高达91%,判断女性低一些,也有83%。
从照片里是看不到音色语调、体态、日常行为、人际关系之类帮助判断的信息的。同性恋有纯相貌方面的特征吗?我个人的经验是,靠相貌判断不大靠谱。我以前认识一对男同,他们都是很man的那种,常年健身,待人彬彬有礼但绝没有女气,从外表是看不出来的。也可能是依靠某种服饰特点?表情?背景?人工智能从照片中到底看到了什么我们人类很可能忽略了的特征,或者人类根本看不到的特征,并达到91%的准确率呢?不得而知,反正只是知道AI看得挺准。

不能解释自己的AI无法被信任

这种黑箱特征有时候倒无关紧要,像是判断一下性向。有时候就不能这么草率了,比如看病。虽然AI系统诊断某些癌症的正确率已经达到人类医生的水平,但最后结论,目前还是要医生做,尤其是AI不能告诉我们它诊断的理由是什么的时候。除非以后AI能解释它为什么做出这个诊断,不然让人类100%信任AI是有比较大心理障碍的。
前几天刚刚看到新闻,新加坡政府开始测试无人驾驶公共汽车。这显然是个正确的方向,我也相信不久的将来就会成为现实。虽然自动驾驶汽车事故率比人低,理性上我们都知道其实更安全,但过马路时,停在旁边的公共汽车没有司机,我会不会有点提心吊胆,怕它突然启动?开车时扭头一看,旁边的Bus没有司机,我会不会吓一跳,下意识地离它远点?至少初期会的吧。和几个朋友聊起这个事,都是理性上相信,感性上心虚。
以前的程序是依靠确定性和因果关系运行的,比如搜索算法中哪些页面特征是排名因素,各占多少权重,这是工程师挑出来的、确定的,虽然挑的时候可能就是拍脑袋决定的,但经过监测效果、调整参数,会达到一个比较满意的平衡。人工智能系统并不依靠工程师给定的确定因果,而是更擅长于在概率和相关性中找到联系。对人来说,以概率和相关为特征的判断,经常就不好解释理由了,比如也许是看心情,也许是看好看不好看。
要求AI系统解释自己的判断,不仅是心理上的问题,也许以后会变成伦理和法律上的问题,像看病。再比如涉及用户利益的事情,像贷款,人工智能根据一大堆数据做出拒绝贷款的决定,银行却不能解释为什么拒绝,对用户该怎么交代?今年欧盟可能就要颁布法规,要求机器做出的决定必须有解释。这对Google、Facebook等全球性的企业是个压力。在很多领域,如军事、法律、金融,所有决定都是要有人来承担责任的,如果某个决定无法解释原因,恐怕也没有人敢承担这个责任。
另一个需要AI解释理由的原因是,前面提到,人工智能看的是概率和相关性,但看相关性做决定有时候会导致严重错误。纽约时报的文章举了个例子。经过数据训练的人工智能系统辅助医院急诊室分诊,总体上看效果不错,但研究人员还是不敢真的拿来实用,因为数据中的相关性可能误导人工智能做出错误判断。比如数据表明,患有肺炎的气喘病人最后病愈情况好于平均水平,这个相关性是真实存在的。如果AI系统因为这个数据就给有肺炎的气喘病人比较低的处理等级,那可能就要出事了。因为这些病人之所以最后情况良好,是因为他们一来就被给予最高等级,得到最好最快的治疗了。所以,有时候从相关性看不到真正的原因。

可解释的人工智能

X.A.I.(Explainable AI)可解释的人工智能,是刚刚兴起的一个领域,目的就是让AI对自己的判断、决定和过程做出解释。去年美国国防高级研究计划局(Darpa )推出了David Gunning博士领导的XAI计划。Google也依然是这个领域的领先者,Deep Dream好像就是这方面研究的一个副产品:
人工智能与SEO
回到搜索算法及SEO,搜索引擎之所以还无法全面应用人工智能,其中一个原因也许就是人工智能的判断没有解释、无法理解,如果算法使用目前的人工智能,一旦出现排名异常,工程师们将无法知道原因是什么,就更无法知道该怎么调整。
我想自动驾驶是最先AI实用化的领域之一,和能否解释也有一定关系。自动驾驶汽车的大部分决定是不大需要解释的,或者说解释是一目了然的,距离前车太近所以要减速或者刹车,这类判断应该不需要进一步解释理由了。
SEO们大概都有过同样的疑惑,某个竞争对手的页面看着没什么特殊的,内容不怎么样,视觉设计一般,外链普通,页面优化大家做的都一样,为什么排名就那么好呢?现在的搜索算法还可以探究原因,搜索工程师们大概有内部工具可以看到排名的合理性。如果搜索工程师看着一个挺烂的页面就是排在前面,却也不知道原因,还无从查起,他们的内心可能就焦虑了。
XAI的研究才刚刚开始,这给了SEO们最后的缓冲期。从人工智能系统在其它领域碾压人类的表现看,一旦大规模应用于搜索,作弊和黑帽SEO恐怕将成为过去,现在的常规SEO工作也许变得无足轻重,SEO们需要回到网站的本质:提供有用的信息或产品,别无他法。

语音搜索SEO

新的一年开始了,2018年SEO行业有什么新趋势?相对来说是很容易预测的,因为比较明显:
  1. 移动搜索SEO
  2. 人工智能影响SEO
  3. 语音搜索的SEO
移动优化和人工智能以前谈的很多了,今天聊一下语音搜索对SEO的影响。

语音搜索的独特性

首先要明确两点。
语音搜索SEO一是语音搜索基本上是以移动搜索为基础的。PC搜索,无论百度还是Google,在搜索框中都是支持语音搜索的,只要开通浏览器的话筒权限就可以用语音搜索。但一般来说,对着电脑说话搜索的情况是很少的,甚至有点怪异。不知道有多少读者这么做过,我是极少这么做,也极少看到别人这么做。
对着手机输入语音就很正常了,手机本来就是说话用的。百度的数据不知道,Google前些时间提到过,Google语音搜索的查询量已经达到20%,并且还在快速增长中。
据ComScore的调查,2020年语音搜索将占到总搜索量的50%,还有两三年时间,不知道是否有点夸张,我们拭目以待。但无论能否真的达到这么高比例,目前的增速也是移动搜索之后最明显的用户需求增长点。
所以,要做好语音搜索SEO,首先要做好移动SEO。
第二,语音搜索的过程与文字移动搜索的差别主要在于输入方式的不同,后面的过程是一样的。用户输入语音后,搜索引擎通过语音识别,还是将输入转化为文字,然后还是按照文字搜索返回排名。就我所见,无论查询词是敲进去的,还是说进去的,搜索结果大致相同(但不是100%相同),所以排名算法本身应该是基本一致的。
还要说一下,现在的语音识别技术已经相当靠谱了。前些天下载了手机百度APP,我的标准普通话识别准确率是相当高的,大致应该在95%以上。
所以,语音搜索对SEO的影响主要是在查询词的不同,而不是网站结构、索引、排名等方面。

语音搜索查询词有什么特点

那么语音搜索时的查询词与手打的查询词有什么不同呢?一些调查数据和任何用户自身体验都表明语音搜索查询词有这些特点:
  • 语音搜索查询词长度更长。记得有统计,语音搜索查询词平均比文字输入长了2-3个单词。
  • 语音搜索更具有自然语音的特点。换句话说,语音搜索查询经常是一句话,对话性质很高,而不是罗列几个关键词。
  • 语音搜索中问句占很大比例,而不是陈述句。
  • 语音搜索更接近自然语言,因此查询词花样更多,更无法预测。
  • 语音搜索经常带有强烈的本地特征。这和搜索地点、场景关系很大。
  • 语音搜索中经常出现特殊词,如“附近”,或者英文的“near me”、“nearby“等。
这些特点其实是相互联系的。如果说坐在电脑前研究时会搜索“新街口 饭馆”,拿着手机站在新街口的马路上时就会搜索“附近有什么好吃的饭馆?”这类查询了。

语音搜索对SEO有哪些影响

针对语音搜索查询词的这些特点,做SEO时可以考虑下面一些因素。
首先是第0位排名结果将变得非常重要。除了排在所有其它结果前面这个优势外,语音搜索结果的呈现还有一个特点,对那些有明确、唯一、准确结果的查询,百度或Google经常会用语音念出答案,而这个答案往往是来自第0位结果中相关段落文字的语音合成。大家可以用手机百度语音搜索一下这类查询:
  • 珠穆朗玛峰有多高
  • 美国现任总统是谁
  • 安徽首府是哪
  • 贝多芬死于哪一年
当然,第0位结果主要是针对Google搜索,但其实对百度也是同样道理,可以做同样的努力。百度现在选取的大部分语音答案是来自百度百科,但也有其它网站的结果,比如搜索“地名+天气”。
SEO们也要更加关注人工智能对SEO的影响。如果读者真的搜索上面几个查询,就会发现搜索引擎现在还蛮智能的,它知道这里的“首府”其实指的是省会,“有多高”和”高度“是一回事。搜索引擎在理解查询词方面已经全面使用人工智能,在排名算法上全面启用人工智能时,也许现在的很多SEO方法就不管用了。
写作页面文案时用自然语言,口语化。写完后自己念一遍,感觉一下是否别扭,可读性怎么样?语法是否正确?很多所谓伪原创是达不到这个要求的,未来语音搜索的时代,搜索引擎对伪原创的识别能力也许因此大大提高。
在可能的情况下,页面文字第一段以简短准确的句子直接回答问题,后面段落再展开详述。其实这是最基本的作文要求,但每篇文章都做到并不容易。
网站上尽可能多一些FAQ(常见问题回答)类型的内容,覆盖问句性的查询。最常见的问题型包括:
  • XXX是谁?XXX是什么?
  • 怎样/如何做XXX?
  • XXX是什么时候?XXX营业时间
  • XXX怎么样?XXX好不好?怎样评价XXX
  • XXX在哪?XXX地址
  • 为什么XXX?
不同行业的问题分布、具体用词可能不同,但大体上思路都是一样的,可以扩展出很多问题,而且是真的满足用户需求的问题。
某些领域内容可以使用结构化数据,方便搜索引擎提取内容。
来源:SEO每天一贴
这篇文章有用吗?
点击星号为它评分!
平均评分 / 5. 投票数:
到目前为止还没有投票!成为第一位评论此文章。
很抱歉,这篇文章对您没有用!
让我们改善这篇文章!
告诉我们我们如何改善这篇文章?
最后更新: 2020-09-16 01:02:09
  • 微信
  • 扫一扫我的微信
  • weinxin
  • 微信公众号
  • 扫一扫微信公众号
  • weinxin
所属分类:SEO优化
  • 版权声明: 发表于 2020年9月16日01:02:09,共 26024 字。
  • 转载注明:Google质量评分指南简介 - SEO中文网

发表评论