搜狗云输入法代表了未来技术发展方向

[ 1244 查看 / 2 回复 ]

搜狗云输入法是为了向用户展现搜狗强大自然语言计算处理能力而诞生的。

  与桌面输入法不同,桌面输入法需要考虑到用户机器性能,用户下载成本等多种因素,因此桌面输入法的特点是:小而精。小的意思是,语言模型的信息量尽量的小,以减小用户安装包的大小和保证用户输入时的音字转换效率;精的意思是,桌面输入法从用户的常用性角度上做了很大优化,因此即使再小,用户相对比较常用的短句(用户输入数在8左右)基本可以保证正确无误的输出(这部分首选率应该可以达到95%以上)。

但当用户的输入不很常见的时候,比如很多专业长句,文言文文章的时候,那么桌面输入法就不能带给用户很好的体验了。

  但搜狗云输入法没有桌面输入法那样对系统计算资源的限制。云输入法计算存储平台都是内存巨大计算能力强大的服务器,因此其存储的词库和语言模型库从理论上可以无限大(目前我们的语言模型库是2G,桌面模型库只有15M,词库上我们目前规模是200w,而桌面词库规模是不到40w,下一步我们也会把更多的可信任专业词库加入云输入法词库中);同时由于计算能力强大,为了让计算结果更准确,我们在云输入法中采用了3元语言模型和带有语义特点的trigger模型,未来如果有需要,可以采用更长的4元以及5元模型。在单台服务器的基础上,我们进一步会同时部署多台服务器,并且考虑负载均衡等各种服务器协作的原则,这其实已经具有了云计算的特点。另外从实现上,我们的云输入法没有对客户端做任何限制,只是指定了一种网络通信方式,在这种网络通信方式下,任何第三方操作系统,软件或者通信硬件,都可以通过直接和我们的云输入法相通信得到其想要的计算结果,这样进一步增进了我们“云计算”的特质(同时可以作为一种商业模式)。

  因此与桌面输入法相对,云输入法的特点是大而全,同时可以再加一个字“准”。桌面输入法可以计算出来的全部准确结果,只是云输入法的一个很小的子集。从评测上,新闻长句评测集合在桌面输入法上首选率只有60%,而在云输入法上可以达到80%,并且不能首选的那部分case有一半从语义上完全可以接受(语义正确率大概可以到90%);用户短句的云输入法首选率在96%左右,桌面输入法只有不到93%;用户短句的云输入法候选率在99%以上,桌面输入法只有不到94%。同时,桌面输入法几乎不可能通过组词输出的,云输入法都可以做到,比如孙子兵法中的句子“夫兵形象水,水之行避高而趋下,兵之形避实而击虚;水因地而制流,兵因敌而制胜。故兵无常势水无常形。能因敌变化而取胜者谓之神”,或者皇帝内经中的句子“余闻上古之人,春秋皆度百岁,而动作不衰,皆谓之虚邪贼风避之有时,是以嗜欲不能劳其目,淫邪不能惑其心”等,都是通过三元组词模型做到的。可见云输入法组词计算能力何等的强大。

  云输入法之所以能做到如此的大,全,准,靠的是搜狗强大的技术实力。我们通过搜索引擎抓取训练语料,当前训练语料的规模是100G文字语料;我们通过精准的分词技术对句子进行精确拆分,以构建准确的语言模型库;我们通过强大的滤噪能力把语料中的错误去除,以优化我们候选项的质量;我们依靠多年来在桌面输入法上累积起来的成功经验进一步优化云输入法的计算品质。总之,云输入法是一个搜索引擎和自然语言处理的集大成者,具有云计算的特点,代表了未来技术发展的方向。

试用云输入法:http://pinyin.sogou.com/cloud/
TOP

sogou输入法确实不错,但有时候觉得输入的时候反应有些慢,可能是词库太大了吧。不知道云输入法效果是不是真的很好。
TOP

用起来还不错,但是貌似只能在网页上使用呢
TOP