Bagofwords模型

2019-09-11 21 0 举报/投诉

Bagofwords模型

Bagofwords模型,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个辞彙都不受前面句子的影响而独立选择的。

Bag of words模型这种假设虽然对自然语言进行了简化,便于模型化,但是其假定在有些情况下是不合理的,例如在新闻个性化推荐中,採用Bag of words的模型就会出现问题。例如用户甲对“南京醉酒驾车事故”这个短语很感兴趣,採用bag of words忽略了顺序和句法,则认为用户甲对“南京”、“醉酒”、“驾车”和“事故”感兴趣,因此可能推荐出和“南京”,“公车”,“事故”相关的新闻,这显然是不合理的。解决的方法可以採用SCPCD的方法抽取出整个短语,或者採用高阶(2阶以上)统计语言模型,例如bigram,trigram来将词序保留下来,相当于bag of bigram和bag of trigram,这样能在一定程度上解决这种问题。简言之,bag of words模型是否适用需要根据实际情况来确定。对于那些不可以忽视词序,语法和句法的场合均不能採用bag of words的方法。

相关文章

财务经理财务
美乐地
联合国欧洲本部
外来农民工
龙吻0
达卡(孟加拉国首都和第一大城市)

发布评论