科学技术

2025.03.13

韩国国立国语院为探寻人工智能时代韩国语言文化资源的构建方向,每年都会举行相关国际学术大会。图为去年12月4日,在首尔市中区大韩商工会议所举行的学术大会。图片来源:国立国语院

韩国国立国语院为探寻人工智能时代韩国语言文化资源的构建方向,每年都会举行相关国际学术大会。图为去年12月4日,在首尔市中区大韩商工会议所举行的学术大会。图片来源:国立国语院



      韩宣网首尔3月13日电(记者Margareth Theresia)当今时代,大数据为塑造国家竞争力的核心之一。为此,韩国文化体育观光部国立国语院正在加快开发以韩语为基础的人工智能(AI)技术。

      AI技术开发援助以系统收集韩语大数据为基础,通过构建韩语“语料库”进行。目标为力促以韩语为基础的AI技术发展,以人工智能夯实韩流基础。

      “语料库”是指把人们实际使用的语言资料整理成计算机可处理的形态数据,是帮助AI更好理解和利用韩语的基本资料。这里不仅包括图书和报纸,还包括YouTube视频脚本、博客、聊天工具对话等各种书面语和口语资料。“语料库”不仅可以用于语言研究和教学,还是AI技术开发的核心资源。

       国立国语院正在开发三种类型的“语料库”。在没有进行特别分析的情况下,将原文文本资料进行数据化的原始语料库;在句子和语节单位等添加特定分析信息的分析语料库;通过两种以上语言解析同一内容的并列语料库。这些都是AI翻译技术发展的关键因素。

以从2021年开始构建的“韩语-外语并列语料库”为基础,国立国语院于2023年发行了《为构建韩语-外语并列语料库的翻译指南》,并每年召开相关国际学术大会。右图为去年学术大会的官方海报。图片来源:国立国语院

以从2021年开始构建的“韩语-外语并列语料库”为基础,国立国语院于2023年发行了《为构建韩语-外语并列语料库的翻译指南》,并每年召开相关国际学术大会。右图为去年学术大会的官方海报。图片来源:国立国语院



      国立国语院语言信息科高级研究员朴美英表示,为构建人工智能文化韩流基础,援助以韩语为中心的AI翻译技术开发,促进语言文化产业的成长动力,开始构建“韩语-外语并列语料库”相关事业。

      根据文化体育观光部2021年发布的《韩语文化产业大数据构建中长期战略计划》,相关事业正在以韩语翻译资料相对不足的外语为中心,构建并列语料库。

      考虑到韩国语教育的需求和翻译的必要性,选出了越南语、印尼语、泰语、印地语(印度)、柬埔寨语(柬埔寨)、他加禄语 (菲律宾)、俄语、乌兹别克语共8种语言。

      “韩语-外语并列语料库”并非通过机器翻译,而是通过品质较高的专家翻译制作而成。以每年更新的翻译方针为基础进行修改,确保高品质和可信赖度。从2021年到2023年构建的大数据在国立国语院“语料库”网站(kli.korean.go.kr/corpus)供人们公开使用。去年所构建的相关数据将在今年内公开。

      “语料库”还被广泛用于AI翻译技术的提高。Naver的Hyper CLOVA X、SK电信的A.服务等主要AI模型正在学习这些大数据。作为培养翻译专家的实务教育资料,“语料库”也十分具有价值。

从2021年开始构建的“韩语-外语并列语料库”在国立国语院“语料库”网站公开。图片来源:国立国语院“语料库”网站截图

从2021年开始构建的“韩语-外语并列语料库”在国立国语院“语料库”网站公开。图片来源:国立国语院“语料库”网站截图



      朴美英表示,虽然长期居住在韩国的外国人正在增加,但是部分语言的行政和公共服务方面的翻译援助并不完善。如果想进一步发展机器翻译技术,继第一期事业(2021-2025年)之后,还有必要持续推进第二期事业(2026-2030年)。

      她还表示,如果想要有效提高AI性能,不仅需要构建文本,还应构建图像、语音、视频等多种数据。为引领人工智能文化韩流,今后还将开发更多样的“语料库”。

      “韩语-外语并列语料库”数据资料均为免费。只要在官网申请,便可使用。

      margareth@korea.kr