谷歌排序的介绍

谷歌排序的介绍

2008年7月21日
发表者: 谷歌首席工程师 Amit Singhal

今年 5 月,我们的副总裁乌迪•曼博曾撰博介绍谷歌搜索质量小组,这个组主要负责谷歌搜索结果的排序工作。尤迪介绍了这个“质量”小组的不同团队,包括核心排序团队、国际搜索团队、用户界面团队、网络作弊以及其他团队。在这篇文章中,我希望向你重点介绍他们其中的一员:负责核心排序的团队。

首先让我介绍我自己:我的名字是 Amit Singhal,谷歌首席工程师,负责谷歌的搜索排序团队。1990 年,作为计算机专业的毕业生,我开始了解搜索,至今在这一领域工作了 18 年。在学术界,搜索被称作是信息检索。我先是作为信息检索研究员工作了 10 年,2000 年,我进入谷歌,一直从事谷歌搜索排序工作到现在。

谷歌的搜索排序是一整套的算法,用于寻找相关程度最高的文档以满足每个用户查询需求。我们天天在海量的网络信息中用这套算法处理数亿次的查询,每一个用户的查询我们都会应用这套算法。我们的网页搜索是访问量最高也是最知名的搜索服务,这套算法也用在其他的谷歌搜索服务,包括图片搜索、资讯搜索、YouTube、谷歌地图、谷歌图书等等,在这些搜索中谷歌的排序算法有所修改。

关于谷歌排序,我最常听到的问题是:“你们怎么做搜索排序?”当然,我需要很多篇幅来介绍建立像谷歌一样的一个堪称艺术品的排序系统,我将在后续的文章中做更深入的阐述。现在,我很兴奋与你分享谷歌搜索排序算法的哲学:

1、为全球用户提供相关性最强的本土搜索服务
2、简单易用
3、从不人为干预

关于第一点显而易见,因为我们对搜索服务的热情,我们绝对想确保每个用户查询都获得相关度最高的搜索结果。我们把这一点称作“不放过任何一个有瑕疵的查询” 原则。无论何时,无论是来自哪个国家的何种语言的查询,只要我们没有给出理想的搜索结果——尽管我们确信这种不完美在搜索中依旧存在,搜索才刚刚开始,我们都用这一原则激励我们改进服务。

第二点看起来也很明显。哪个系统架构师不希望他们的系统简单易用?不过,因为我们必须对多种语言的各种各样的查询做出回应,我们的搜索系统也随着查询服务的发展而变得越来越复杂。我们非常努力地保持系统的简单易用,同时保证搜索质量没有降低。这是一项长期的工作,但这一切值得我们去努力。我们每周做十次搜索排序算法的改进,简单易用是我们做每一次改进时重点考虑的事情。我们的工程师很清楚地了解针对一个既定查询一篇网页应该如何排序。这个简单易懂的系统可以让我们快速实现创新。“简单易用”的原则非常有效。

关于谷歌排序一个不可避免但总是有些被误导的话题就是“谷歌是否人为干预搜索结果?”请答应我用谷歌算法的第三点原则往返答:从不人为干预。我们认为,互联网是人类共同建立的。你们就是网页的创建者和链接者,我们用我们的算法将人类的贡献利用起来。搜索结果的最终排序应该取决于我们对互联网大社区的总体贡献的运算结果,而不是我们的人为干预的结果。我们相信,对于任何个人的主观判定只是一个主观结果,而通过我们的算法,将布满着庞大的人类聪明的网页和链接提炼出来,其结果优于任何人为的主观判定。

我们反对人为调整搜索结果的第二个理由,就是我们认为,一次失败的查询意味着我们的搜索排序算法的一次改进。而算法的改进将不仅仅提高一次查询的服务质量,它可以提高类似查询的整体搜索服务质量,而且通常是对多种语言搜索服务质量的提高。不过,我还要补充一点,谷歌对于所推荐的网页有明确规定,假如出现违反我们的规定的网站,例如非法、儿童色情、病毒或恶意软件等等,我们将采取行动。

请继续关注我的下一篇文章,我将具体讲解我们的搜索排序技术,并且举出排序技术的几个实例。让我用一句话总结这个博客:我们对于搜索的热情比以往更为强烈。作为一个搜索研究员,我拥有这个世界上最好的工作:-)


谷歌排序背后的技术

2008年7月23日
发表者: 谷歌首席工程师 Amit Singhal

在我上一篇文章里,我已经介绍了关于谷歌搜索排序的哲学。作为我们探讨搜索质量的努力的一部分,我要向大家介绍更多的谷歌搜索排序背后的技术。我们的排名系统的核心技术源于学术领域的情报检索学。情报检索学对搜索的研究已有近 50 年的历史了。它应用字符突出性的统计讯息,例如字符频率之类,来完成网页排序(可参照“现代情报检索: 概要介绍”来快速了解情报检索技术)。情报检索学为我们提供了一个坚实的基础,在此基础上我们应用最常访问链接、网页结构以及其他创新技术建立起了一个庞大系统。

在过去十年,搜索已经从“给我我所说的”发展到“给我我想要的”。用户对搜索的期望无疑已经提高。我们努力工作以达到每个用户的期望,为了这一点,我们需要更好的理解网页,理解查询,理解用户。在上个十年里,我们已经将理解以上三个部分(在搜索过程中)的技术推到一个全新的层次。

在谷歌,当我们讨论查询要害词的时候,我使用方括号[ ]来标记最开始和最后的查询词(请参考 Matt Cutts 的“如何输入查询要害词”),在本文中我将自始至终使用这一标记。(网页和搜索结果频繁变化,因此,本文举例的解释也许与即时查询的结果不一样。)

理解网页:多年来我们在抓取和索引系统上投入了大量精力。因此,我们拥有一个非常庞大、更新及时的索引。除了规模和更新,我们还用其他方法改进索引。我们用于理解网页的核心技术之一就是理解这个网页要表达的相关的重要概念的能力,即使这个概念在网页中并没有处于明显的位置。比如,即使伦敦 Sprovieri Gallery 的官方网页中没有出现 London 或 Londra 的字眼,但是我们依然能够在搜索结果中给意大利语查询 [galleria sprovieri londra] 提供 Sprovieri Gallery 的官方网页。在美国,一个用户搜索 [cool tech pc vancouver, wa],将找到 www.cooltechpc.com 主页,即使这个网页没有在任何一个地方提到他们在 Vancouver,WA。我们开发的另一些技术比如在网页中区分重要与次重要字符以及信息的新鲜程度。

理解查询要害词:理解我们的用户在寻找什么(而不仅仅是几个查询词)非常要害。在这一领域我们取得了几个值得注重的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。

共2页: 上一页 1 [2] 下一页

上一篇:关于RNAi 一个弱智问题,请教师兄师姐   下一篇:一份杂志的免费页,未发现杂志名称
ad
ad