大藏经整理

人工智能作为一门炙手可热的技术,也引起了不少学研究者的兴趣。那么人工智能到底能在佛学研究中扮演什么样的角色

有一种观点认为,人工智能的发展目的就是要彻底取代人类,其实这是片面的。我更赞同《机器与人》(Human+Machine)一书提出的观点1,在人类专门活动与机器专门活动之间,有着一片广大的中间地带是留给人机协作活动的。在这里,人和机器不是相互竞争的对手,而是合作的战友、共生的伙伴,彼此将对方推向更高的成就人类可以帮助机器弥补其不足,人工智能可以赋予人类超强能力。也就是说,在人工智能的帮助下,人得以用一种更好的方式完成工作,让人更像人,而不是像机器一样工作。


在两年之前,给古文标点断句还被认为是电脑无法很好完成的任务,当时的自动标点算法错误率很高,并不具有实用价值。今天,古文工作者在自动标点的帮助下得以准确高效的完成标点工作,一些单位(比如CBETA)也主动将自动标点纳入到工作流程之中。这便是机器帮助人类,赋予人类超强能力的例子。越来越多经过人工核查、具有准确标点的文本重新用于自动标点引擎的训练,又进一步提高了自动标点的准确性。这便是人类帮助机器弥补其不足的例子。


站在佛教古籍整理的角度,我认为人工智能所发挥的作用尚处于人机协作活动的范围,能够替代很多具有重复性质的标准化任务,比如录文、标点断句、专有名词标引。这些任务的训练数据也相对容获得。对于那些不容易进行标准化、具有个人特色的创造性任务,比如专业领域的语言翻译,只要准备好充分的标注数据,人工智能也具有一定潜力。


人工智能得以发挥作用,必须依赖庞大的数据集用于迭代训练,同时也需要一个持续性的长期项目,成为其用武之地,否则人工智能只是一个精巧别致的玩偶。大藏经整理正是人工智能的用武之地。


具体而言,有以下几个方向:


 

更为丰富的版本

天人们对于佛教文献的研究已经从量上的追求,转为了质的追求,不单单满足于获得一个差不多正确的文本,而是开始讲究文献的版本源流、概念的去脉,这就势必需要追溯某种文献在不同时代下的文本内容及其细部的变动演化。之前完成的一些基于单一版本的大藏经电子化在多年来的使用过程中已经暴露出不足,基于人工检查得到的不同版本大藏经的校勘记也无法避免产生遗漏或错误。如果提供更为丰富多样的大藏经电子化版本,将为学者引用经文提供更多的选择,对大藏经各版本进行更直观的比较。


 

更为精准的回溯

之前的大藏经电子化仅仅关心识别的文本内容而不关心其位置信息,这样的话回溯检查某一经文内容的原始图像是比较麻烦的。识别文本的内容属于识别任务,也就是先指定待识别的图像区域,然后返回识别结果,是大藏经电子化的常规思路。同时识别文本的内容和位置属于检测任务,是大藏经电子化的新思路,不仅仅可以得到文本内容,还能得到其位置信息,便于日后回溯检查。人工智能在图像领域的技术发展,使得常规文本识别的成本大幅降低,并且文本检测能力的迅速提升,使得更为准确、更易检查的大藏经电子化具有实现的可能。


 

更为灵活的标注

标点其实也是一种标注。借由人工智能在自然语言处理领域的新技术和现有的标点文本总量,高质量的自动标点已经成为现实。标注的类型其实是相当多的,除了命名实体、分词这些常见类型,还有结合佛教实际情况的类型。比如统一的分句、分段是其他宗教经典中常见的结构标注形式。但是佛教大藏经尚缺少统一的分句、分段,令经文引用显得冗长而复杂,不像其他宗教经典那样简明。还有佛教文献中存在大量的注疏、科判,还有同本异译、多语种平行文本,这些也是可以增加到大藏经中的标注形式。人工智能在其中也可以发挥人机协作的角色。


在标注格式上,应当遵循国际通用标准,例如语言标注框架(Linguistic    Annotation  Framework,LAF),并且采用基于字符位置的分离式标注而非内嵌式标注2。所谓内嵌式标注,是指XML标签物理包围被标注文本的标注形式。这种标注方式的一大弊病是难以克服标签重叠的问题,特别是当文本中存在多种相互交叉的标注内容。所谓基于字符位置的分离式标注,则是采用字符偏移量来放置标签信息,这样使得标签和文本可以分开保存,不改变原始文本,多种不同的标注可以指向同一文本而不必相互关联。

庄周梦蝶

1  保罗·多尔蒂,詹姆斯·威尔逊. 机器与人[M]. 中信出版集团, 2018.

2  James Pustejovsky, Amber Stubbs.面向机器学习的自然语言标注[M]. 机械工业出版社, 2017, P95.




来源:贤超小和尚



















延伸资源下载(千G中华传统经典古籍|儒释古本民间术数大全超强版持续更新中......)
Empire CMS,phome.net

版权声明:本站部分内容由互联网用户自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请拨打网站电话或发送邮件至1330763388@qq.com 反馈举报,一经查实,本站将立刻删除。

文章标题: 贤超法师:人工智能在大藏经整理中的展望发布于2022-01-21 21:47:16