注册 登录
当前所在位置: 首页 > seo资讯 > 正文

搜索背后的奥秘,浅谈语义主题计算

2024-09-15 03:01:01 seo资讯 【 字体:

有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。 同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你 可能需要仔细阅读以下内容:

是否 两个文档是否相关往往不仅取决于单词的字面重复,还取决于文本背后的语义关联。 挖掘语义关联可以使我们的搜索更加智能。 本文重点介绍一个强大的语义挖掘工具:主题模型。 主题模型是对文本隐含主题进行建模的方法。 它克服了传统信息检索中文档相似度计算方法的不足,能够在海量互联网数据中自动发现词间语义主题。 近年来,各大互联网公司都开始在这方面进行探索和尝试。 让我们来看看。

关键词:主题模型

技术领域:搜索技术、自然语言处理

假设有两个句子,我们想知道它们是否相关:< /p>

第一个是:“乔布斯离开了我们。”

第二个是:“苹果会降价吗?”

以人的眼光来看,这两个句子虽然没有任何共同的词,但还是很有关联的。 这是因为,虽然第二句中的“苹果”可能指的是被吃掉的苹果,但既然第一句中有“乔布斯”,我们自然会将“苹果”理解为苹果的产品。 事实上,搜索引擎算法中经常会遇到文本句子之间的相关性和相似性问题。 例如,用户输入查询,我们想从海量网络库中找到最相关的结果。 这是如何衡量查询和网页之间的相似度的问题。 对于这样的问题,人们可以根据上下文来判断。 但是机器能做到吗?

在传统的信息检索领域,其实有很多衡量文档相似度的方法,比如经典的VSM模型。 然而,这些方法通常基于一个基本假设:文档之间重复的单词越多,它们就越有可能相似。 在实践中并非总是如此。 在许多情况下,相关程度取决于其背后的语义联系,而不是单词的明显重复。

那么,这种语义关系应该如何衡量呢? 事实上,在自然语言处理领域,已经有很多方法可以从单词、短语、句子、章节的角度来衡量。 本文将介绍语义挖掘的强大工具之一:主题模型。

什么是主题模型?

主题模型,顾名思义,就是对文本中隐含的主题进行建模的方法。 在上面的示例中,单词“apple”既包含 Apple 主题,也包含水果主题。 对比第一句话,苹果的话题与“乔布斯”所代表的话题相匹配,所以我们认为它们是相关的。

这里,我们先来定义一下什么是主题。 主题是一个概念,一个方面。 它以一系列相关词的形式出现。 比如一篇文章涉及“百度”这个话题,“中文搜索”、“李彦宏”等词的出现频率会更高,而涉及“IBM”这个话题,就会出现“笔记本”。 非常频繁。 用数学来描述它,主题是词汇表中单词的条件概率分布。 与主题越密切相关,其条件概率越高,反之亦然。

例如:

Www。123456.cN

通俗地讲,一个话题就像一个“桶”,里面包含了多个高 发生的概率。 这些词与主题之间有很强的相关性,或者更确切地说,正是这些词共同定义了主题。 对于一篇文章,有些词可以来自这个“桶”,有些可能来自那个“桶”,而一段文字往往是几个主题的混合。 我们举个简单的例子,见下图。

Www。123456.cN

以上内容摘自网络新闻。 我们分为 4 个桶(主题),百度(红色)、微软(紫色)、谷歌(蓝色)和 Marketplace(绿色)。 段落中包含的每个主题的单词都用颜色编码。从颜色分布上我们就可以看出,文字的大意是在讲百度和市场发展。在这里面,谷歌、微软这两个主题也出现了,但不是主要语义。值得注意的是,像“搜索引擎”这样的词语,在百度、微软、谷歌这三个主题上都是很可能出现的,可以认为一个词语放进了多个“桶”。当它在文字中出现的时候,这三个主题均有一定程度的体现。  

有了主题的概念,我们不禁要问,究竟如何得到这些主题呢?对文章中的主题又是如何进行分析呢?这正是主题模型要解决的问题。下面我简要介绍一下主题模型是怎样工作的。  

主题模型的工作原理  

Www。123456.cN

首先,我们用生成模型的视角来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:  

上面这个式子,可以矩阵乘法来表示,如下图所示:  

Www。123456.cN

左边的矩阵表示每篇文章中每次词语出现的概率;中间的Φ矩阵表示的是每个主题中每个词语出现的概率,也就是每个“桶  

Www。123456.cN

表示的是每篇文档中各个主题出现的概率,可以理解为一段话中每个主题所占的比例。  

假如我们有很多的文档,比如大量的网页,我们先对所有文档进行分词,得到一个词汇列表。这样每篇文档就可以表示为一个词语的集合。对于每个词语,我们可以用它在文档中出现的次数除以文档中词语的数目作为它在文档中出现的概率。这样,对任意一篇文档,左边的矩阵是已知的,右边的两个矩阵未知。而主题模型就是用大量已知的“词语-文档”矩阵,通过一系列的训练,推理出右边的“词语-主题”矩阵Φ和“主题文档”矩阵Θ。  

主题模型训练推理的方法主要有两种,一个是pLSA(ProbabilisticLatentSemanticAnalysis),另一个是LDA(LatentDirichletAllocation)。pLSA主要使用的是EM(期望最大化)算法;LDA采用的是Gibbssampling方法。由于它们都较为复杂且篇幅有限,这里就只简要地介绍一下pLSA的思想,其他具体方法和公式,读者可以查阅相关资料。  

pLSA采用的方法叫做EM(期望最大化)算法,它包含两个不断迭代的过程:E(期望)过程和M(最大化)过程。用一个形象的例子来说吧:比如说食堂的大师傅炒了一盘菜,要等分成两份给两个人吃,显然没有必要拿天平去一点点去精确称量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直重复下去,直到大家看不出两个碗里的菜有什么差别为止。  

对于主题模型训练来说,“计算每个主题里的词语分布”和“计算训练文档中的主题分布”就好比是在往两个人碗里分饭。在E过程中,我们通过贝叶斯公式可以由“词语-主题”矩阵计算出“主题-文档”矩阵。在M过程中,我们再用“主题-文档”矩阵重新计算“词语-主题”矩阵。这个过程一直这样迭代下去。EM算法的神奇之处就在于它可以保证这个迭代过程是收敛的。也就是说,我们在反复迭代之后,就一定可以得到趋向于真实值的Φ和Θ。  

如何使用主题模型?  

有了主题模型,我们该怎么使用它呢?它有什么优点呢?我总结了以下几点:  

1)它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式(比如KL距离)来计算出两篇文档的语义距离,从而得到它们之间的相似度。  

2)它可以解决多义词的问题。回想最开始的例子,“苹果”可能是水果,也可能指苹果公司。通过我们求出来的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题,就可以通过主题的匹配来计算它与其他文字之间的相似度。  

3)它可以排除文档中噪音的影响。一般来说,文档中的噪音往往处于次要主题中,我们可以把它们忽略掉,只保持文档中最主要的主题。  

4)它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。  

5)它是跟语言无关的。任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。  

综上所述,主题模型是一个能够挖掘语言背后隐含信息的利器。近些年来各大搜索引擎公司都已经开始重视这方面的研发工作。语义分析的技术正在逐步深入到搜索领域的各个产品中去。在不久的将来,我们的搜索将会变得更加智能,让我们拭目以待吧。

相关推荐

百家号怎么突然不推荐?

百家号怎么突然不推荐?
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

SEO优化:进行SEO必须要做的几件事

SEO优化:进行SEO必须要做的几件事
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

为什么网站旧内容,会重新展现,该怎么处理?

为什么网站旧内容,会重新展现,该怎么处理?
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

2023福布斯中国台湾富豪榜-台湾最新富豪榜2023排行榜

2023福布斯中国台湾富豪榜-台湾最新富豪榜2023排行榜
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

育儿公众号,新手要怎么运营推广?

育儿公众号,新手要怎么运营推广?
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

乳夹是什么?乳夹如何正确使用?

乳夹是什么?乳夹如何正确使用?
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

神器横空出世:小红书爆款文案笔记既然是这样做出来的(红人涨全搞定)

神器横空出世:小红书爆款文案笔记既然是这样做出来的(红人涨全搞定)
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

原创文章每天多少篇比较合适?

原创文章每天多少篇比较合适?
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

浅谈排名,收录和权重三者之间的关系

浅谈排名,收录和权重三者之间的关系
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细

天花板石膏板掉皮是什么原因(石膏板天花老掉灰怎么办)

天花板石膏板掉皮是什么原因(石膏板天花老掉灰怎么办)
有时候我们在做SEO写作的时候,经常会强调原创文章的重要性。同时,我们在网站优化中也需要避免重复的内容,但是有时候,我们表面上看到的问题并不是而实际上是一种情况,如果你想尝试研究一下页面的相关性,我想你可能需要仔细
友情链接