主题模型整合随机游走框架在学术搜索中的应用

jgsj

浏览: 960457 次

最近访客更多访客>>

lgphacker

严十七

hh_xi

epichust

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1947)

社区版块

存档分类

2014-04 ( 88)
2014-03 ( 103)
2014-02 ( 57)
更多存档...

原文：A Topic Modeling Approach and its Integration into the Random WalkFramework for Academic Search

摘要

在本文中，我们提出一个统一的将主题模型方法(Topic Model)整合进随机游走(Random Walk)框架的方法，并将其应用到学术搜索里。具体地，我们提出了一种能同时将论文，作者和出版地进行建模的主题模型。我们将主题建模与随机游走框架结合起来。实验结果表面，我们提出的这种学术搜索方法明显优于使用BM25和语言模型的基础方法，也优于现有的其他主题模型（包括pLSI，LDA和AT模型）。

1 介绍

在过去的几年中，相当多的学术搜索引擎，如谷歌学术搜索，Citeseer和Libra，已经建成庞大的文献库，提供网上搜索的功能。然而，还是存在许多具有挑战性的问题：第一，信息检索的实践[5]并不仅仅是论文，还包括其他数据源，如作者，会议和期刊等等；第二，学术搜索通常需要更高的检索准确度。给定一个查询，如“数据挖掘”，通常并不意味着用户要查找包含这个词的论文。他/她的本意是查找数据挖掘这个主题下的一些论文。此外，这两个问题通常交织在一起。

已有的工作正试图解决这些问题的不同方面。想要排列不同的对象，已经提出了适用于异构网络的随机游走[9][15]。但是，这些方法不考虑文件的子主题。同时，有些人研究利用主题模型来提高检索的准确度[6][14]。然而，如何拓展主题模型来处理带有链接信息的异构数据是一个开放性的问题。

在这项工作中，我们将探讨主题模型如何帮助学术搜索。特别的，我们主要关注以下几点：

1.异构主题建模：怎样才能在同一个概率主题模型下同时为论文，作者和出版地建模？

2.学术搜索：怎样将主题模型运用到学术搜索里来得到更好的检索准确度？

3.使用主题模型和随机游走排名：怎样把主题模型结合进一个随机游走框架来提高排名？

我们提出了一个概率主题模型来同时提取论文，作者和出版地的主题。更进一步地，我们提出了两种方法来把一些主题模型结合随机游走，为不同的对象同时排名。我们的实验结果表明我们提出的方法和基本方法相比，显著提高了搜索质量。

2 初步

假设论文d，包含了N_d个字组成的向量w_d， A_d个作者组成的向量a_d，出版地c_d。一个包含了D篇这样的论文的集合就可以记为D = {(w₁, a₁,c₁),··· , (w_D, a_D,c_D)}。表1总结了本文用到的符号。

我们介绍了一些相关工作，包括：语言模型[2]，pLSI[6]，LDA[3]，以及随机游走[10]。

语言模型是信息检索里最先进的方法之一。它把一篇文档和一个查询词之间的关联解释成一个生成概率。

tf(w, d)是词w在论文d中的词频，N_D是整个集合里词(token)的总数，tf(w, D)是词w在集合D里的词频。λ是狄利克雷平滑因子。文档d生成一个查询q的概率就可以被定义为

表1 符号列表

Hofmann提出了pLSI模型[6](the probabilistic LatentSemantic Indexing，即概率潜在语义索引)。该模型假设在很多词和很多文档之间有一个潜在模型层Z = {z₁,z₂,··· ,z_T }。那么，从文档d内生成词w的概率可以通过这个主题层来计算得到：

LDA[3]( LatentDirichlet Allocation，即潜在狄利克雷分布)也用一个主题层来给文档们建模。在LDA中，对于每一个文档d，多项式θ_d将首先从一个带参a的狄利克雷分布中抽样得到。第二步，对于每个词w_di，从这个分布中选择一个主题z_di。最后，词w_di生成自一个特定主题的多项式θ_zdi。据此，词w在文档d中的生成概率可以表示为：

一些基于LDA的拓展已经提出了，比如AT模型[12](Author-Topic，即基于作者的主题模型)。

在分析Web链接结构方面已经投入了大量的研究工作，例如PageRank[10]和HITS[7]。很多基于随机游走的扩展也已经被提出，比如[9]和[15]。还有很多其他的努力投入在运用随机游走排名模型来做参考书目数据的挖掘。

3 我们提出的主题模型

给学术网络建模可以有很多不同的方式，比如，为每个种类的对象找一个单独的LDA模型。然而，这种分离的方式可能导致结果不尽人意。在第五节的实验结果证实了这一假设。在这项工作中，我们的主要想法是用一个概率主题模型来对论文，作者和出版地一起建模。

我们提出的模型称为ACT模型(Author-Conference-Topic，即作者-会议模型)。为简单起见，我们使用会议来表示各种出版来源，包括会议，期刊和文章。本质上，该模型利用主题分布来代表作者，论文和出版地之间的内在依赖关系。用不同的策略来实现主题模型。具体而言，我们考虑三种不同类型的实现。

3.1ACT模型一

在第一种模型中，会议以“标记”的形式与每个词关联。要在论文d里生成一个词w_di，作者x_di将首先被挑选出来为这个词“负责”。每个作者与一个主题分布关联。然后一个主题将从以作者为主的主题分布里抽样出来。最终，这个词以及会议标记将从这个被选出来的主题中生成。图1图解表示了ACT模型。

图1ACT模型一的图解

下面描述整个生成过程：

1. 对每个主题z，分别从Dirichlet(β)和Dirichlet(μ)中抽取出Φ_z和Ψ_z；

2. 对论文d中的每个词w_di：

从a_d中抽取一个作者x_di
从与作者x_di相对应的多项式θ_xdi中抽取一个主题z_di，θ生成自Dirichlet(a)
从多项式Φ_zdi中抽取出词w_di
从多项式Ψ_zdi中抽取出会议c_di

为了之后的推断，现在的任务是估计ACT模型一中两套未知参数：(1)作者-主题A的θ分布，主题-词T的Φ分布，以及主题-会议T的Ψ分布；(2)每个词w_di的对应主题z_di和作者x_di。我们只计算了x和z上的后验分布，而不是直接估计模型的参数，然后用计算结果来推断θ，Φ和Ψ。后验概率定义为：

m_xz是主题z与作者x的关联次数，n_zv是词w被主题z生成的次数，n_zc是会议c被主题z生成的次数，z_-di和x_-di表示不包括论文d中第i个词的其他所有词的主题和作者的分配，带-di上标的数字表示除当前实例外的其他总量。a，β和μ是超参数，被设置为定值(如a=50/T，β=0.01，μ=0.1)。

在参数估算过程中，算法跟踪一个A×T(作者和主题)计数矩阵，一个T×V(主题和词)计数矩阵和一个T×C(主题和会议)计数矩阵。给出这三个计数矩阵，我们很容易估算出一个主题的概率，只要给出一个作者θ_xz，主题θ_zv下的词的概率，以及主题Ψ_zc下会议的概率。具体计算过程如下：

3.2 ACT 模型二和模型三

在第二个模型中，每个主题选择自一个关于“作者-会议”对的多项式主题分布，而不是模型一中只相关一个作家。该模型源自观察：作者通常会线选择一个出版地，然后基于出版地的主题和作者自己的兴趣来写论文。我们使用的是类似于模型一中参数估计的方法。

在第三个模型中，会议被当作一个数值。从论文中所有的词中采样出主题后，论文的每个会议标记再被采样。直观地看，这对应一种发表论文的自然方式：作者先写论文，然后再根据论文中论述的主题来决定去哪里发表。该模型中，会议标记来自普通的线性模型。因此，对于参数估计，与模型一和二有细微的差别。我们使用Gibbs的EM算法[1][8]来做该模型的推断。

3.3 将ACT运用到学术搜索

在ACT模型的基础上，我们可以利用类似等式(3)的方式得到文档模型的一种形式。然而，通过主题模型学习到的主题通常是一般性的，不具体到给出一个查询。因此，只使用ACT本身来建模对于学术搜索来说太粗糙。经初步实验还表明：只有ACT或LDA模型的信息检索将有损检索性能。在一般情况下，我们希望在一般性和特殊性之间达到一个平衡。因此，我们得出了将ACT模型和基于词的语言模型组合的形式：

P_LM(w|d)是用语言模型计算出的在论文d内词w的生成概率，P_ACT(w|d)是ACT模型计算出来的生成概率。

同理，我们可以定义类似的作者模型和会议模型：

其中，在语言模型里，a和c分别代表作者a发表的一系列论文集合和会议c上发表的一些列论文集合。

4 主题模型和随机游走下的排名

我们将展示两种将上述主题模型结合进随机游走框架的方法。

图2 转变概率

学术网络主要由三部分网络组成(图2)。图的中间是一个论文引用的有向图G_d= （V_d，E_dd），V_d包括了所有论文，有向边(d₁, d₂)∈E_dd表示d₁引用了d₂。类似地，作者和论文之间的关系也由双向图表示G_ad= (V_a ∪ V_d,E_ad)，出版地和论文之间的关系由另一个双向图表示G_cd= (V_c ∪ V_d,E_cd)。

我们将这些不同的图组成一个多样图：G =(V_d ∪V_a ∪V_c, E_dd ∪E_ad∪E_cd)。此外，出于对随机游走的考虑，我们把双向图中每条边记作两条有向边：{a_i,d_j } =(a_i,d_j) ∪ (d_j ,a_i)。进一步地，我们定义了能描述不同类型节点之间转换概率的图。显然，我们需要λ_dd+ λ_da + λ_dc=1成立。我们还定义λ_ad = λ_cd=1。这个转换图形式化了如下这种随机冲浪者的行为。随机冲浪者会有λ_dd的概率停留在论文引用网络里，λ_da 和λ_dc的概率找到与论文相关的作者和出版地。

根据这点，类似PageRank模型，我们定义了一个一般形式的每个节点随机游走排名分数公式：

|V|是网络内节点数目，ξ是随机跳跃参数，λ_yx是y节点类型和x节点类型之间的转换概率，P(x|y)是具体两个节点x和y之间的转换概率。

4.1 结合方法一

第一种方法通过简单的相乘把随机游走分数与来自主题模型的相关分数结合起来。给定查询q，论文d的最终排名分值是随机游走排名分数r[d]和论文的关联分数P(q|d)的乘积：

类似地，我们为论文和作者定义了结合公式：

我们也尝试了加权和的方法，如R[d]=γ×r[d]+(1−γ)×P(q|d)，γ是控制两边权重的系数。在尝试了γ系数的各种取值之后，这种相加的方式还是不如相乘的方式表现得好。

4.2 结合方法二

方法二直接将主题模型整合进随机游走。该方法在网络里增加了主题节点V_t和查询节点V_q。

记G_td =(V_t∪V_d,E_td)为一个双向图，V_t是在主题模型里估算出的主题节点集。如果论文d能被带有概率P(w_d|z)>ε(ε是控制结构网络的密度的参数)的主题z生成，那么我们可以得到边(z,d)∈E_td。类似地，我们可以定义会议和主题之间的边E_ct，以及作者和主题之间的边E_at。进一步，我们可以在查询节点和其他不同节点(论文，作者，会议和主题)之间增加边。图3展示了新的多样化网络。

图3转换概率

在该方法中，我们认为随机冲浪的人从某一个节点游走到一个主题节点的时候，总会走向一个(虚拟)查询节点，然后走回另一个主题节点。这次查询同论文/作者/会议节点间的转换概率通过语言模型来计算(如P_LM(q|d))。而主题节点与其他节点之间的转换概率通过主题模型来计算，如，

θ和ψ通过(5)得到，P(z_i), P(a_j)和P(c_j)通过数Gibbs样本数目得到。

该方法利用了随机游走里的主题模型。我们同样能调整其他节点到主题节点间的λ参数来决定随机游走和主题模型对最终排名的影响权重。随机游走后的排名得分是依赖于查询的。

5 实验结果

我们在我们自己开发的ArnetMiner (http://arnetminer.org)系统里评估了上述提出的各种模型。

5.1 实验设置

5.1.1 数据集

由于没有一个基于真实情况的标准数据且制造这样一种真实数据集很困难，出于评估的目的，我们搜集了43个在ArnetMiner的查询日志里最常被搜索的查询。我们将这些查询分成两份子集，进行了两次实验。在第一次实验中，我们使用了7个查询，并用ArnetMiner上数据的一个子集(包括14,314个作者，10,716篇论文和1434个会议)进行评估。在评估方面，我们使用汇集关联判断[4] 结合人工判断的方法。具体而言，对每个查询，我们首先从三个学术搜索系统(Libra,Rexa和ArnetMiner)汇集了前30个结果。然后，选了两位职工和五位来自CS的毕业生提供人工判断。用四个等级的分数(3,2,1和0)里代表最相关，相关，边缘性相关和不相关。在第二个实验里，我们使用剩下的36个查询并使用ArnetMiner里的所有数据(448,365为作者， 981,599篇论文和4,501个会议)进行评估。在评估方面，我们只用了汇集相关性的判断，不加入人工判断。为了更好地汇集，我们增加了一个基本方法，即BM25[11]。具体而言，对于一个查询，我们集中了来自BM25，我们的方法和Libra，Rexa两个系统的前30个结果。我们对“相关”的定义是，四种方法中至少三种返回该候选人。

5.1.2 实验设置

在所有的实验中，我们根据P@5,P@10,P@20,R-pre,和MAP[4]进行评估。

我们使用BM25[11]，语言模型[2]，pLSI[6]，LDA[3]和AT模型[12]作为基准方法。BM25是信息检索中最领先的方法之一。在BM25中，我们[11]中的方法来计算一个查询和一篇论文之间的关联度。对于语言模型，我们使用等式(1)来计算一个查询词和一篇论文之间的关联度。对于pLSI，我们使用等式(2)来计算关联度。对于LDA，我们使用等式(3)来计算一个词和一篇论文之间的关联度。对于AT模型，我们使用类似等式(6)和等式(7)的等式来分别计算一个查询词和一篇论文，一个作者之间的关联度。我们同样也对比了来自使用结合方法一来结合LM和随机游走所得到的结果。我们也尝试了将BM25和RW1结合起来。该结果不如LM和RW1的结合。

为了学习pLSI模型，我们使用了EM算法[6]。对于LDA和AT，我们使用了同ACT模型相同的设置来展开模型评估。在第一个实验中，我们出于经验把所有主题模型的主题数T设为80。在第二个实验中，我们把T设为200。

5.2 实验结果

5.2.1 第一个实验结果

表2展示了基于我们提出的方法和基准方法得到的检索论文和会议的结果。+RW记号表示该方法整合了RM。RW1表示结合方法一，RW2表示结合方法二。我们可以看到，我们提出的方法结果要优于基准方法(BM25,LM,pLSI,LDA,和AT)。我们还可以看到ACT1+RW1在所有方法里得到的结果最好。

5.2.2 第二个实验结果

在第二个实验里，我们分析了我们的最佳方案(ACT1+RW1)，BM25，以及两个系统(Libra和Rexa)的结果。(Rexa只有论文和作者检索)表3展示了四种方法的结果。我们可以看到我们提出的方法得到的结果优于基准方法和两个系统。

表2学术搜索各方法评估结果

表3学术搜索各方法评估结果

5.3 讨论

(1)我们提出的关于学术搜索的方法明显优于现存的基准方法。从表2和表3可以看到ACT1+RW1实现了最好的效果。这表明我们提出的方案的确提高了学术搜索的质量。

(2)我们看到通过把主题模型和随机游走结合起来，我们可以显著增强排名性能。

我们同时观察到了一个惊人的结果：第一种结合方法通过简单相乘的方式来结合来自主题模型的关联分数以及来自随机游走的分数，然而第二种结合方法直接把主题模型整合进随机游走。直观地看，第二种方法看起来更加“优雅”，应该会获得更好的性能。但是，表2表明第一种方法在性能方面有显著提升而第二种方法反而削弱了检索性能。

进一步分析表明第二种方法把主题模型结合进了随机游走的每一步中，导致有太多的参数需要调配。比如，图3中会有十八个λ需要调参。这就很难找到一个最优的设置。

(3)我们同时也能从表2看到不同的主题模型表现不一，但是ACT1在有随机游走和没有随机游走的时候都表现最佳。

进一步分析表明，我们发现ACT2的抽样阶段导致了大量稀疏的作者-会议×主题(AC×T)计数矩阵，累计到千万行。ACT3的问题可能是我们把会议标记当作数值，导致描述带有离散值的会议信息的时候不准确。怎样在主题模型里精准地捕捉到会议信息依然是我们继续向前研究的课题之一。

(4)表3表明我们的方案性能优于现有的学术搜索系统。理由包括：(1) Rexa只支持论文搜索和作者搜索，所以不能利用作者，论文，会议之间的依赖关系；(2) Libra提供三类数据的检索。但是，它的排名是基于语言模型和PageRank[9]的。再次说明，它不能利用不同对象之间的(主题级别的)语义依赖性。

6 总结

在这篇论文中，我们研究了用一个统一的概率模型来给异构学术网络建模的问题。我们提出了三种主题模型来同时为论文，作者和出版地建模。我们进一步提出了两种方法来将主题模型与随机游走结合起来为学术搜索服务。实验结果表面我们的方法性能上超越了现有的基准方法和已存在学术搜索系统。

我们提出的方法具有普遍性和灵活性。主题模型可以用很多方式实现，而随机游走可以任意在线上或线下的模式下运行。方法的多样性可以运用到许多别的应用里，比如社会搜索和博客搜索。

7 致谢

引用

[1] C. Andrieu, N.de Freitas, A. Doucet, and M. I. Jordan. An introduction to mcmc for machinelearning. Machine Learning, 50:5–43, 2003.

[2] R. Baeza-Yates andB. Ribeiro-Neto. Modern Information Retrieval. ACM Press, 1999.

[3] D. M. Blei, A.Y. Ng, and M. I. Jordan. Latent dirichlet allocation. Journal of MachineLearning Research, 3:993–1022, 2003.

[4] C. Buckley andE. M. Voorhees. Retrieval evaluation with incomplete information. In Proc. ofSIGIR’04, pages 25–32.

[5] M. Hertzum andA. M. Pejtersen. The information-seeking practices of engineers: Searching fordocuments as well as for people. Information Processing &Management,36(5):761–778, 2000.

[6] T. Hofmann.Probabilistic latent semantic indexing. In Proc. of SIGIR’99, pages 50–57,1999.

[7] J. M. Kleinberg.Authoritative sources in a hyperlinked environment. Journal of the ACM,46(5):604–632, 1999.

[8] T. Minka.Estimating a dirichlet distribution. Technical report,http://research.microsoft.com/ minka/papers/dirichlet/,2003.

[9] Z. Nie, Y.Zhang, J.-R. Wen, and W.-Y. Ma. Object-level ranking: bringing order to webobjects. In Proc. Of WWW’05, pages 567–574, 2005.

10] L. Page, S.Brin, R. Motwani, and T. Winograd. The pagerank citation ranking: Bringingorder to the web. Technical Report SIDL-WP-1999-0120, Stanford University,1999.

[11] S. Robertson,S. Walker, M. Beaulieu, M. Gatford, and A. Payne. Okapi at trec-4. In TREC’96,1996.

[12] M. Steyvers, P.Smyth, and T. Grifﬁths. Probabilisticauthor-topic models for information discovery. In Proc. of KDD’04.

[13] J. Tang, J.Zhang, L. Yao, J. Li, L. Zhang, and Z. Su. Arnetminer: Extraction and mining ofacademic social networks. In Proc. of SIGKDD’08, pages 990–998, 2008.

[14] X.Wei andW. B.Croft. Lda-based document models for adhoc retrieval. In Proc. of SIGIR’06,pages 178–185, 2006.

[15] W. Xi, B.Zhang, Y. Lu, Z. Chen, S. Yan, H. Zeng, W.-Y.Ma, and E. A. Fox. Link fusion: auniﬁed link analysis framework for multi-typeinterrelated data objects. In Proc.of WWW’04, pages 319–327, 2004.

分享到：

一个小程序，让你知道Qt一次能支持按下多少 ... | 一个小程序，让你知道Qt一次能支持按下多少 ...

2013-03-29 12:22
浏览 550
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论