最新的谷歌专利揭示了搜索引擎是如何看待实体的

认识我的人都知道,我是阅读谷歌专利的超级粉丝。或者,当我觉得懒的时候,读一下Bill Slawski在他的博客SEO By The Sea中对他们的分析。我也对那些涉及实体的人特别感兴趣,因为他们(至少对我来说)是那些定义谷歌正在试图解决的问题的人。随着机器学习的发展,实体代表了搜索引擎是如何看待世界的。

最新的谷歌专利揭示了搜索引擎是如何看待实体的

最新的谷歌专利揭示了搜索引擎是如何看待实体的

在我们深入研究这一最新的谷歌专利之前,我们先来定义一个实体,以确保我们都在同一页面上。根据这项专利,定义如下:

一个实体是一个单数的、唯一的、明确的和可区分的事物或概念。例如,一个实体可能是一个人、地点、项目、想法、抽象概念、具体元素、其他合适的东西,或其中的任何组合。

为了事情保持简单一些,你可以随意地把一个实体看作一个名词。

另一个需要了解的重要定义是非结构化数据,这在维基百科中的定义相当精确:

非结构化数据……是指既没有预定义的数据模型,也没有以预定义的方式组织的信息。

有了这些,我们就可以直接进入专利了。这篇文章的结构,我将包括确切的用斜体字详细说明专利的重要部分,然后解释每一部分的含义。

摘要

为集体和解提供了方法、系统和计算机可读媒体。在某些实现中,接收到一个查询,其中查询至少部分与某一实体类型相关联。至少部分基于查询生成一个或多个搜索结果。检索与一个或多个搜索结果的至少一个搜索结果相关联的以前生成的数据,这些搜索结果中包含与实体类型对应的至少一个搜索结果中的一个或多个实体引用的数据。对一个或多个实体引用进行排序,并且至少部分地根据排序从一个或多个实体引用中选择一个实体结果。对查询的回答至少部分是基于实体结果的。

这是其中的一个摘要,几乎没有描述专利所包含的全部内容。就抽象而言,我们要读的只是实体的排名,而排名决定了查询的答案。

这足以把我吸引到专利中去,而且确实是准确的——但是正如您很快会看到的,除了一个简单的 “我们对名词进行排名” 之外,还有更多的描述。

总结

以下摘录包含在专利的摘要部分。

第二部分

系统通过依赖与搜索结果相关联的非结构化数据中标识的实体引用来提供对自然语言搜索查询的答案。…系统检索至少与某些搜索结果相关的每个网页的额外的、经过预处理的信息……额外的信息包括,例如网页中出现的人的姓名。在一个例子中,为了回答一个“谁”的问题,系统编译出现在前10个搜索结果中的名字,如附加信息中所识别的。该系统确定了最常见的名字作为答案…

在上面的摘录中,我们开始了解系统背后的方法。谷歌在这里讨论的是这样一种想法,即为了确定一个“谁”问题的答案,他们将使用出现在搜索结果前10名中最常见的名字。

第四部分

查询是一种自然语言查询……根据至少一个排名信号对一个或多个实体引用进行排序。在某些实现中,一个或多个排序信号构成了每个相应实体引用的出现频率。在某些实现中,一个或多个排序信号组成了每个实体引用的主题得分。在某些实现中,前面生成的数据对应于非结构化数据。

为了进一步了解专利中该方法的概述方式,我们可以看到在一个文档中使用该术语的频率,以及可能跨多个文档使用该术语的频率。此外,我们还看到主题性是一个相关因素,并且它是应用于非结构化数据的方法。

第五部分

可以以自动和不断更新的方式为查询提供查询。在某些实现中,问答可以利用搜索结果排序技术。在某些实现中,可以根据例如网络的非结构化内容自动识别问题答案。

在本部分中,我们发现问题的答案可能是根据搜索结果或排名技术来确定的,但我们似乎也看到了专利的扩展,包括了基于其他技术的问题答案的自动确定,以及它们在非结构化数据中确定答案的能力。

专利US 2016/0371385A1的真正实质内容

第14至96节详细描述了该专利所包含的图像、流程图和实质内容。其中一些图像将被包括在下面,而另一些则将被简单地记录下来,这取决于哪些图像能够更好地传递信息。

第19部分

系统可以检索与前十名搜索结果相关的实体引用。……排名和/或选择的依据是质量分数、最新分数、相关分数、任何其他适当的信息或其中的任何组合。

在这里,我们看到谷歌澄清,不同类型的实体和答案可能基于不同的信息集。例如,如果你在查看天气,空气新鲜度可以被选择为一个更强烈的信号;而如果你在查找一个定义、健康信息等等,质量可能会更强。

第20部分

我得承认,我得读几遍这一部分,才能完全理解他们在说什么。本节与专利图1有关,其内容如下:

最新的谷歌专利揭示了搜索引擎是如何看待实体的

最新的谷歌专利揭示了搜索引擎是如何看待实体的

他们写到:

从与特定网页相关的实体引用110中检索的信息是该网页中出现的人员的列表。例如,一个特定的网页可能包括若干人的姓名,而实体引用110则可能包括网页中所包括的姓名的列表。实体参考文献110还可包括其他信息。在某些实现中,实体引用110包括不同类型的实体引用,例如,人、地点和日期。在某些实现中,多个实体类型的实体引用被作为单独的带注释的实体引用列表,作为单独的列表,以任何其他适当的信息格式或这两种格式的任何组合来维护。可以理解,在某些实现中,实体引用110和索引108可以存储在单个索引、多个索引、任何其他合适的结构中,或者其中任何组合。

他们所指的背后的想法在专利中的其他地方重复。在阅读本专利时,我想到的一个大问题是它需要巨大的处理能力。如果任何实体搜索引擎需要在自己的索引上运行查询,处理前10个结果,然后确定最常用的术语,以建立最有可能的答案的一个问题,处理这样的搜索结果将采取多次更多的资源。

在第20部分中,他们讨论了这方面的方法,即将引用列表(图中的110)与索引本身分开。

因此,当输入诸如“谁是dave davies”这样的查询时,数据将从索引中提取(以确定可能有答案的页面),但也存在第二个引用点(110),其中包含实体数据(例如每个文档中提到多少次“dave davies”),从而避免了谷歌动态地计算出它的存在。

第21部分

一个或多个排序指标用于对实体引用进行排序,包括出现的频率和主题性评分。发生的频率与实体引用在特定文档、文档集合或其他内容中发生的次数有关。主题性评分包括实体引用和它所显示的内容之间的关系。

撇开重复使用一个术语作为度量标准的次数,我们在这一节中也看到了主题性的增强。虽然这可能关系到一个网站与一个主题的相关性,以及应该给出一个参考的权重,但我倾向于认为,这更多的是为了帮助了解正在引用哪个实体。

例如,如果实体“dave davies”出现在一个与SEO相关的页面上,那么它很有可能是我。另一方面,如果“dave davies”出现在与音乐相关的页面上,很可能是“Kinks家伙”(我喜欢指的是他)。

在与音乐相关的主题页面上看到更多“dave davies”,将有助于他们选择。

最新的谷歌专利揭示了搜索引擎是如何看待实体的

最新的谷歌专利揭示了搜索引擎是如何看待实体的

第25部分

系统根据一个或多个质量分数对搜索结果进行排序。在某些实现中,质量分数包括与搜索查询的相关性、与搜索结果相关联的质量分数、与上一次生成或更新内容的时间相关的最新分数、与以前从一组搜索结果、任何其他适当质量分数或任何两者的组合中选择的特定搜索结果相关的分数。在一个例子中,与搜索结果相关联的质量分数可能包括与相应网页的链接数量。

在第25部分中,我们看到更多关于质量评分作为一个度量标准的澄清说明。当然,这一部分不仅要作为质量指标提及进入的链接,而且要包括出站链接,作为可能的信号。

第28部分

系统通过将结构化或非结构化文本与已知实体引用列表(如名称列表)进行比较,生成网页中出现的实体引用的集合。在某些实现中,根据出现的频率或其他集群技术来识别先前未知的实体引用。在某些实现中,实体引用是人实体引用,例如,网页文本中出现的人的姓名。在一个示例中,系统维护在特定网页中出现的所有人员的姓名的列表,当网页出现在搜索结果框206的顶部结果时,将检索该列表。

在第28部分中,我们看到了这样的理解:并非所有的实体都是已知的,需要开发方法来理解新的实体。如果一个人在互联网上第一次被提及,新的建筑被开发出来,诸如此类。然后谷歌将使用它们对其他实体的引用方式的理解(例如,页面上的位置),并开始将新实体添加到实体引用列表中(见上面图1中的“110”)。

第36部分

在某些启动位置中,系统处理网页和其他内容以标识实体引用。在某些实现中,系统离线执行此处理,以便在搜索时检索该处理。在某些实现中,系统在搜索时实时处理信息。

在第36部分中,我们看到正在讨论的系统通过离线处理提供更快的结果,正如我们前面在第20部分中看到的。我们还看到对实时运行的系统的参考。显然,有些查询类型需要这样做(比如天气),可以假定谷歌会有这类信息的可信源列表,使它们仍然能够以最少的资源快速处理信息。

第37部分

项目包括实体引用、与实体引用相关联的唯一标识符、实体引用出现的频率、实体引用出现的页面位置、与内容相关的元数据(如新鲜度和排序)、任何其他适当数据或其中的任何组合。在某些实现中,以前生成的数据可能包括实体引用的类型,例如,人、位置、日期、任何其他合适的类型,或者它们的任何组合。在某些实现中,以前生成的数据包括将实体标识为特定类型的信息,如人员实体引用、位置实体引用或时间实体引用。在某些实现中,可能会为网站或其他内容生成多组数据,其中每组数据都与一个或多个类型相关联。例如,一个网站可能与其中出现的人员实体引用的列表和其中出现的位置实体引用的列表相关联。

对于那些对不同实体将如何单独分开感到好奇的人,我们在这里得到了我们的答案,在这里他们讨论了一个实体的“唯一标识”。也就是说,与其把Dave Davies of The Kinks 和Dave Davies的文章作者Dave Davies想成是两个版本的“Dave Davies”,不如说谷歌认为我们是具有相同属性的标识符。

当我们会想到一个人的名字时,谷歌不会;他们会用一个独特的,很可能是字母数字的序列来思考这个问题。我将在下面进一步说明这一点,但在其最简单的形式中,它可能看起来像:

独特的ID(00000001A)- 》名字(Dave Davies) — 》(音乐家)

独特的ID(00000001A)- 》名字(Dave Davies)- 》工作(音乐家)

过去,这一部分主要加强了已知的SEO和相关增强因素,如实体使用的频率、网页上的内容位置、链接等。

第38部分

内容中出现的名称或实体引用可用于消除引用的歧义。在一个例子中,[George Washington]与[Martha Washington]相同的案文中的名称可以被确定为与美国总统名单中的一个独特实体有关,而[George Washington]出现的内容与[大学]和[Washington D.C.]相同,则被确定为与[George Washington 大学]有关。

在本部分中,我们将进一步了解如何通过上下文理解实体。如果有两个或多个实体具有类似的名称属性,专利概述了使用页面中的其他数据,以帮助确定正在引用哪些特定实体。

使用我自己的例子,在“The Kinks”页面上出现的“Dave Davies”的引用会将Dave Davies与Unique ID 00000001A联系在一起,而不是从00000001B。

第41部分

在另一个例子中,系统根据文档的长度或任何其他合适的度量来对出现的次数进行规范化,从而确定一个频率。

老实说,我在这篇文章中加入第41部分的唯一原因是,这可能是我最后一次能够将关键字密度作为衡量标准,而不是“在21世纪初”。

有趣的是,这正是他们在这里所提到的,在这个背景下,它确实是有意义的。如果将一个实体在前10个搜索结果中的出现频率作为一个问题答案的指标,就应该考虑到,一个10000字的网页对这个数字的影响应该不同于一个有700个字的网页。

不过,您很可能再也不会从Unique ID 00000001B读取或听到对关键字密度的引用。

第42部分

系统使用主题评分作为排名信号。在某些实现中,主题性分数包括新鲜度、文档的年龄、文档的链接数和、在以前的搜索结果中选择该文档的次数、文档与查询之间关系的强度、任何其他合适的分数,或两者的任何组合。在某些实现中,主题得分取决于实体引用与实体引用出现的内容之间的关系。例如,实体引用[George Washington]在历史网页上可能比在当前新闻网页上有更高的主题得分。在另一个例子中,实体引用[Barack Obama]在政治网站上的话题性分数可能比在法学院网站上高。

在本节中,我们将看到谷歌澄清什么是主题,以及它对结果的影响。这与选择一个特定的实体作为答案(例如,Dave Davies正在被引用的选择)有关,而更多的是与用于制定答案的数据有关。

例如,他出生时是八个孩子中的最后一个,这与上文中“谁是dave davies”的回答并不相关,相反,他的出生日期和乐队是这样的信息。所有这些信息都是准确的,但由于主题性信号(如文档之间的频率),选择了更多的“重要”信息。

第47部分

如果我们想真正理解谷歌如何回答问题和组织数据的逻辑,第47部分可以说是最重要的数字。因此,在我们开始讨论所写的内容之前,让我们先看一下插图。重要的是要注意,红色文本不是初始专利的一部分,并且是我添加的,以提供一个上下文。

最新的谷歌专利揭示了搜索引擎是如何看待实体的

最新的谷歌专利揭示了搜索引擎是如何看待实体的

每个节点都包含一个或多个数据块,边表示边连接的节点中包含的数据之间的关系。在某些实现中,该图包括由一条边连接的一个或多个节点对。边可以是单向的,无向的,也就是双向的,或者是双向的,也可以是双向的,也就是说,一条或多条边可以是无向的,一条或多条边可以是同一图中的定向的。

引用的节点是圆形元素并包含数据;直线是边,包含关系。例如,Dave Davies(402)有他的兄弟Ray Davies(404),他们都有The Kinks(408)乐队。

为了便于理解,这个图表很简单。实际上,这些节点中的每一个都表示唯一的ID,而那些ID将包含元素“Has Name”——但是对于我们这里的目的,上面的插图效果很好。

第52部分

域名引用了相关实体类型的集合。例如,域名[电影]可包括实体类型[演员]、[导演]、[电影拍摄地点]、任何其他合适的实体类型或其中的任何组合。在某些实现中,实体与多个域名中的类型相关联。例如,实体节点[Benjamin Franklin]可以与域名[政府]中的实体类型节点[磨光器]以及域名[商业]中的实体类型节点[发明家]连接。

在这一节中,我们将看到更多的信息分组到域名中。合理地说,我们可以假设大多数或所有域名都是其他应用程序中的节点。例如,“Keanu Reeves”将会是一个与另一个节点“电影”相连的节点。这两个节点都将包含在域名“电影”中。

第56部分

知识图谱可以包括术语和/或实体的区分和消歧的信息。这里使用的区分指的是多个名称与单个实体相关联的多对一情况。此处使用的消除歧义指的是一对多的情况,其中同名与多个实体相关联。在某些实现中,可以为节点分配一个唯一的标识引用。在某些实现中,唯一标识引用可以是字母数字字符串、名称、数字、二进制代码、任何其他合适的标识符或它们的任意组合。唯一标识引用允许系统为具有相同或相似文本标识符的节点分配唯一引用。在某些实现中,唯一的标识符和其他技术用于区分、消除歧义或两者兼而有之。

在第56部分中,我们澄清了区分(解决一个实体有很多名称的场景——例如:电影、影片、模式)和消除歧义(解决多个实体共享一个名称的场景–例如:Dave Davies)。

我们在唯一标识符及其用法一节中再次谈到。简而言之,你不是你,没有实体本身在我们沟通的方式上。每个实体都是一个唯一的ID,并且该唯一ID被分配给包含更多公共引用的节点,例如名称和特征。

第58部分

这里可能是一个与城市[Philadelphia]相关的实体节点,一个与电影[Philadelphia]相关的实体节点,以及一个与奶油奶酪品牌[Philadelphia]相关的实体节点。这些节点中的每一个都可能有一个唯一的标识引用,例如作为数字存储,用于在知识图中消除歧义。在一些实现中,知识图中的消歧是由多个节点之间的连接和关系提供的。例如,纽约市[New York]可能与州[New York]消除歧义,因为该市与实体类型[城市]相连,而州与实体类型[州]连接。可以理解,更复杂的关系也可以定义和消除节点的歧义。例如,一个节点可以由相关类型、通过特定属性、名称、任何其他适当信息或其中任何组合与之相关联的其他实体来定义。这些连接可能有助于消除歧义,例如,连接到[United States]节点的[Georgia]节点可被理解为代表美国,而[Georgia]与[Asia]和[Eastern Europe]节点相连的节点可理解为代表东欧国家。

虽然第58部分的重点是讨论如何通过节点和连接来识别特定的实体,但这里真正重要的是,这是它们确定哪个答案更有可能是正确的方法。这将基于节点的组合(如本节所述)和域(如前所述)。如果我问谷歌这个问题:

“谁在Philadelphia?”

谷歌明白,最可能基于问题类型的参考(即我正在搜索的人)是电影。“Philadelphia。”这个问题可以用一张清单来回答,上面列出了所有到过这个城市的已知的人,但这不可能是我想要的信息。因此,谷歌提供了一个基于电影的答案。如果我将问题改为:

“有多少人在Philadelphia?”

谷歌给出的答案是155.3万。它本可以用电影的演员总数来回答这个问题,但它根据现有的实体和需要的数据框架,选择了它认为最有可能的答案。

第61部分

节点和边定义了实体类型节点与其属性之间的关系,从而定义了一个模式。

在这里,我们看到谷歌实际上是通过创建它自己的边缘和节点的模式,将非结构化数据转换为一个结构,而之前的模式没有定义。这将允许谷歌为Person(例如)生成自己的模式,并不断地调整、添加和删除与之关联的模式。

第68部分

对于不同的领域,不同的实体类型,或者根据任何其他适当的限制特征,都维护了分离知识图谱。

在本部分中,我们看到谷歌为不同类型的数据创建不同类型的知识图谱。也就是说,根据所请求的信息的类型确定不同的答案。下面我们将讨论为什么这很重要。

又怎样?

既然我们已经完成了关键信息的最后一部分,你可能会问:“那又怎样?”问得好。

虽然了解谷歌如何组织数据是一件好事,但我们可以从中获得一些具体的可操作项目,这些项目可以极大地提高我们的排名和相关性。最好的部分是,它们并不难,也不需要太多的努力——只是对你想要的东西有一个了解。

包含使您相关的数据。好的,现在我将摘下“显而易见的船长”帽子,并指出,如果我们简单地从这个网站上找到答案,以及它在这个实体上有什么数据,我们就会对谷歌认为与这个特定主题相关的内容有更深入的了解。虽然谷歌希望给出一个答案,但如果需要,他们也希望他们的用户能够访问更完整的数据。因此,他们将更有可能对一个网站进行排名,该网站不仅有他们想要的答案,还可能有支持信息搜索者在寻找。

创建结构化的非结构化数据。显然,使用标记来为引擎构建数据是很理想的,但也很重要的是,要对内容进行框架,这样信息就可以在没有它的情况下连接起来。谷歌正在通过内容来确定自己的连接,所以使用“Dave Davies是Kinks的吉他手”这样的声明将会帮助谷歌理解你所指的Dave Davies,他的角色是什么,以及他的角色是谁。像“Kinks的Dave Davies”这样的声明可能会被作为正确的实体被挑选出来;然而,这些数据不会被视为完全完整的。这对谷歌来说是好事,因为他们可以在其他许多地方获得这些信息。不过,如果我们想要排名好,我们应该努力做到彻底。

更多的结构。这是以前说过的,而这项专利进一步证明了,我们需要研究知识的传递方式,并据此构造我们自己的数据。如果你看一下上面这个问题的答案,“谁是dave davies”,你会发现答案是按照段落的格式给出的。如果我们考虑这项专利,我们会考虑这是谷歌如何将这些类型的查询连接起来的。因此,如果我们有一个关于Dave Davies的页面,我们想要以段落格式来组织信息,而不是在列表中。这将不同于“我如何……”类型的查询,这些查询通常以它们的答案格式使用列表。这是第68部分讨论的内容,它不仅会影响我们作为回答问题的能力,还会影响到谷歌如何解释我们的网站以及我们的内容结构的有效性。

结论

在我看来,实体是谷歌算法排名中最重要的一个要理解的方面,而这项专利增加了这种理解。理解实体就是了解谷歌如何看待它所遇到的所有事物之间的联系。这有助于决定应该如何组织内容(以及内容应该包括哪些内容),使其被视为不仅相关,而且最相关。

您还更想了解什么呢?欢迎与我们交流您的想法。

以上内容是由webhostingpad主机使用指南(http://webhostingpad.cn/)为大家提供,如果您想了解更多内容,请您继续关注webhostingpad主机使用指南。

发表评论

电子邮件地址不会被公开。 必填项已用*标注