babel出自《圣经》。据说人类的
祖先曾使用同一种语言,彼此团结,
和平相处。后来,Shinar地区的人们
开始为自己建造一座通天塔,上帝觉
得他们狂傲自大,十分不满,于是施
法弄乱了人类的语言。没有了共同的
语言,人们无法沟通与合作,通天塔
的梦想也就此落空。通天塔由此而得
名 Tower of Babel,因为Babel在希
伯来语中意为“混乱, confusion”。
    我们将这个汉英平行语料库取名
为 babel,希望它能为清除人类的语
言文化障碍做出些许贡献。
 
访问计数:
最后更新:

    “平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写、并且针对同一主题,但相互之间却不存在直接的“翻译关系”。

    人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在 Xerox PARC 、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

    babel 汉英平行语料库始建于2001年,它最初服务于一个面向新闻领域的机器翻译系统,为基于其中存储的引擎提供翻译实例。目前,语料库的规模已达20万句对。在建设babel 的过程中,我们一方面探索语言资源建设的方法,一方面开展相关的应用研究。这个站点向您介绍babel 汉英平行语料库的相关情况,衷心希望它能为您提供帮助,衷心希望您能多多指教。

项目资助
国家重点基础研究发展规划项目: 面向新闻领域的汉英机器翻译
教育部人文社会科学重点研究基地重大项目: 基于大规模汉英对齐语料的语言研究与教学平台

  关于我们

 
 

babel 汉英平行语料库
Copyright © 2003 北京大学 计算语言学研究所
建议显示分辨率1024*768
网站维护 柏晓静