查辞海

 部首检索 拼音检索 近义词 反义词 语造
词频相关组词:

字词联想测验 敦煌曲子词 怀古词 一阙词 疑问代名词 腊鼓频催 补词 状词 指称词 赚词 疑问代词 没词儿 片面之词 表词 频尿 截止频率 宽频 同形词 加词 不定冠词 唸唸有词 抽象名词 频率响应 及物动词 根词 供词 高频 发端词 对口词 调频广播 大唐秦王词话 词学 词族 词翰 词穷 词不悉心 词频 词华 词谱 词林 搊弹词 声频 苏州弹词 浮词曲说 音频 外交词令 用词 调词架讼 词无枝叶 词穷理绝 词穷理尽 包揽词讼 专有名词 自动频率控制 常用词 听不得一面之词 敬词 张大其词 情词恳切 讽词 合成词 频仍 支吾其词 构词惑众 大张其词 答词 诗词歌赋 状声词 涯词 空间频率 各执一词 慢词 变频 词赋 连接词 宫词 调频 广告词 古语词 冠词 唱词 发刊词 音译词 超频 博学宏词科 弹词 措词 生词 歌词 博学鸿词科 词藻 叠词 太平歌词 连词 经传释词 贬义词 理屈词穷 冗词赘句 含糊其词 虚词 

词频基本信息介绍

   简体: 词频
   繁体: 詞頻
   拼音: ci pin
   读音: cí pín
   英语: term frequency
   近义词: 
   反义词: 
   单字解释: 
   造句: 词频造句
   组词,组成语: 

词频解释

词频是什么意思词义解释来源:辞书


1:词频(term frequency简称TF)是指文件中词汇出现的频率或是次数是衡量一个词汇重要性的一种指标。在各种资讯检索模型中如向量空间模型、机率模型、语言模型都会用到词频的概念。一般而言一个词汇在某一篇文件中出现的次数越高即词频越高则其在该篇文件中的代表性越重要。例外的情况有虚词、连接词、代名词等功能词(function words)这些词汇经常有高词频却不带有任何内容意义在文件的词汇处理过程常被特意地停用、过滤掉因而被称为停用词(stop words)。此外词汇的重要性也会考虑到这个词汇出现在所有文件中的篇数亦即其文件篇数(document frequency简称DF)。若其出现在越多篇文件中即DF越高则表示该词汇可能为常用字故而重要性越低相对于其反向文件篇数(inverse document frequency简称IDF)也低。例如在一批有关电脑的文件中搜寻电脑这个词汇几乎所有的文件都会被找回则不管其词频(TF)电脑在这批文献中对检索没有帮助其重要性要降低刚好对应到其IDF也低。因此词汇的重要性经常以词频(TF)以及反向文件篇数(IDF)这两个概念一起考虑。真正在应用词频的概念时常会对词频做转换而获得一个重要性数值。例如词汇A与词汇B在某一篇文件中各出现TF(A)=8次与TF(B)=2次但不代表词汇A的重要性是词汇B的8/2=4倍。常用的转换作法有取对数函数如log2( TF(A) ) = log2(8) = 3log2( TF(B) ) = log2(2) = 1如此词汇A的重要性只比词汇B多3倍。此外还有对文件内所有的词汇频率做正规化处理例如TF(A)除以该文件所有词汇的总词频(等于词汇A的出现机率)词汇的重要性从频率的次数分布变成词汇的出现机率分布如此可以在机率的理论中探讨词汇与文件的各种特性。





查辞海 chacihai.com 浙ICP备19001761号-4