词性标注的联想

2012-12-27

这学期的人工智能课大作业,我选了最简单的词性标注,实际上也就是实现了几个公式、算法。

最开始我自己瞎琢磨的时候,感觉词性标注应当是这样的:一个词最终标注为哪种词性,既和这个词本身有关,也和词在语句中的位置有关,为了简单,不妨暂时只考虑之前一个词的影响。从统计方法上考虑,就得到两个概率:P(词w标记为词性 i ),P(前一个词的词性为 i 的条件下,当前词为词性 j)。想到这里就很难继续了,因为不知道如何综合利用这两个概率。

如你所知,做词性标注常用的马尔科夫模型,使用的是这两个概率:P(词性 i 赋予词w),P(前一个词的词性为 i 的条件下,当前词为词性 j)。据此,也可以修正原来的想法,使用这两个概率:P(词w标记为词性 i ),P(前一个词为w,当前词性为i),套用到马尔科夫模型中去。

对比后两对概率,马尔科夫模型标注器中使用的确实更纯净,是语法的直接抽象。不过,为什么我会直觉地想起最开始的那对概率呢?

这个问题或许可以抽象成这两种观点:

1. tag这个词,因为它是tag,(我也知道有关tag的知识),所以它可以作名词,有时候也做动词;

2. tag这个词,因为它出现在名词应该出现的位置,所以它是名词,它又出现在动词应该出现的位置,这些时候它是动词。

我的直觉选择的是第一种观点,马尔科夫模型——从某种意义上来说——选择的是第二种观点。我更愿意相信第二种观点,但这种观点容易显得极端:词本身似乎没有意义了,语法凌驾在语言之上,但是词不是一句话实实在在的内容吗? 我猜想在语言开始的时候, 比如小孩刚学语言的时候, 名词最开始习得,而名词确定之后,其他位置好像就显得理所当然了?

这是个很深奥的问题。虽然现在没想明白,但是我觉得一般文章讲述词性标注时,上来就拿词可能具有多个词性来说明为什么需要词性标注(这是第一种观点),用到的方法却是马尔科夫模型(第二种观点),这样过于简陋。

« 寿衣  如何让footer保持在页面底端 »

comments powered by Disqus