词频是什么意思词义解释来源:辞书
1:词频(term frequency简称TF)是指文件中词汇出现的频率或是次数是衡量一个词汇重要性的一种指标。在各种资讯检索模型中如向量空间模型、机率模型、语言模型都会用到词频的概念。一般而言一个词汇在某一篇文件中出现的次数越高即词频越高则其在该篇文件中的代表性越重要。例外的情况有虚词、连接词、代名词等功能词(function words)这些词汇经常有高词频却不带有任何内容意义在文件的词汇处理过程常被特意地停用、过滤掉因而被称为停用词(stop words)。此外词汇的重要性也会考虑到这个词汇出现在所有文件中的篇数亦即其文件篇数(document frequency简称DF)。若其出现在越多篇文件中即DF越高则表示该词汇可能为常用字故而重要性越低相对于其反向文件篇数(inverse document frequency简称IDF)也低。例如在一批有关电脑的文件中搜寻电脑这个词汇几乎所有的文件都会被找回则不管其词频(TF)电脑在这批文献中对检索没有帮助其重要性要降低刚好对应到其IDF也低。因此词汇的重要性经常以词频(TF)以及反向文件篇数(IDF)这两个概念一起考虑。真正在应用词频的概念时常会对词频做转换而获得一个重要性数值。例如词汇A与词汇B在某一篇文件中各出现TF(A)=8次与TF(B)=2次但不代表词汇A的重要性是词汇B的8/2=4倍。常用的转换作法有取对数函数如log2( TF(A) ) = log2(8) = 3log2( TF(B) ) = log2(2) = 1如此词汇A的重要性只比词汇B多3倍。此外还有对文件内所有的词汇频率做正规化处理例如TF(A)除以该文件所有词汇的总词频(等于词汇A的出现机率)词汇的重要性从频率的次数分布变成词汇的出现机率分布如此可以在机率的理论中探讨词汇与文件的各种特性。
|