首页 » 学习

词性标注的联想

2012-12-27

这学期的人工智能课大作业，我选了最简单的词性标注，实际上也就是实现了几个公式、算法。

最开始我自己瞎琢磨的时候，感觉词性标注应当是这样的：一个词最终标注为哪种词性，既和这个词本身有关，也和词在语句中的位置有关，为了简单，不妨暂时只考虑之前一个词的影响。从统计方法上考虑，就得到两个概率：P(词w标记为词性 i )，P(前一个词的词性为 i 的条件下，当前词为词性 j)。想到这里就很难继续了，因为不知道如何综合利用这两个概率。

如你所知，做词性标注常用的马尔科夫模型，使用的是这两个概率：P(词性 i 赋予词w)，P(前一个词的词性为 i 的条件下，当前词为词性 j)。据此，也可以修正原来的想法，使用这两个概率：P(词w标记为词性 i )，P(前一个词为w，当前词性为i)，套用到马尔科夫模型中去。

对比后两对概率，马尔科夫模型标注器中使用的确实更纯净，是语法的直接抽象。不过，为什么我会直觉地想起最开始的那对概率呢？

这个问题或许可以抽象成这两种观点：

1. tag这个词，因为它是tag，(我也知道有关tag的知识)，所以它可以作名词，有时候也做动词；

2. tag这个词，因为它出现在名词应该出现的位置，所以它是名词，它又出现在动词应该出现的位置，这些时候它是动词。

我的直觉选择的是第一种观点，马尔科夫模型——从某种意义上来说——选择的是第二种观点。我更愿意相信第二种观点，但这种观点容易显得极端：词本身似乎没有意义了，语法凌驾在语言之上，但是词不是一句话实实在在的内容吗？我猜想在语言开始的时候，比如小孩刚学语言的时候，名词最开始习得，而名词确定之后，其他位置好像就显得理所当然了？

这是个很深奥的问题。虽然现在没想明白，但是我觉得一般文章讲述词性标注时，上来就拿词可能具有多个词性来说明为什么需要词性标注（这是第一种观点），用到的方法却是马尔科夫模型（第二种观点），这样过于简陋。

« 寿衣如何让footer保持在页面底端 »