赛道3

专业赛:自然语言处理技术创新大赛——中文文本纠错比赛

赛事时间: 2021年6月~2021年10月

报名参赛
赛事背景
为促进中文自然语言技术的发展,由中国人工智能学会主办,科大讯飞股份有限公司组织, 认知智能国家重点实验室(科大讯飞)、哈尔滨工业大学社会计算与信息检索研究中心承办的“第三届中国‘AI+’创新创业大赛——自然语言处理技术创新大赛——中文文本纠错比赛”正式开赛。本次大赛将为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的交流平台。
  • 一、大赛机构
  •  1.主办单位

     中国人工智能学会 

    2.组织单位 

    科大讯飞股份有限公司 

    3. 承办单位 

    认知智能国家重点实验室(科大讯飞)

    哈尔滨工业大学社会计算与信息检索研究中心

  • 二、参赛办法
  • 1.参赛对象 

    本次大赛是面向全国高校,科研机构,和涉及自然语言处理、数据挖掘、知识图谱等技术的人工智能领域企业的赛事,欢迎各单位或个人积极组织队伍申报参赛。


    2.参赛组队形式

    选手可在网上自行组队报名,每支队伍包含 3-5 名队员,选手的地区、年龄、职业不限,每队至少有一名中国国籍选手。


    如果参赛队伍以公司为单位参赛,需已注册成立企业;高校以团队为单位参赛,则需由指导教师带领。参赛个人及单位要求无不良记录;参赛项目的产品、技术及相关专利专属于参赛团队及个人,与其他任何单位或个人无产权纠纷,如在参赛期间发现有侵犯外单位知识产权或盗用成果等纠纷,一经核实,立即终止该参赛队参赛资格,取消其已获得的奖项。


    3. 报名方式

    2021年7月30日前,参赛队伍可登录大赛官网http://2021aichina.caai.cn/或直接登陆比赛指定平台https://competitions.codalab.org/competitions/32702的报名系统中在线报名,并根据网站要求填写队伍信息发邮件至rdg_feiying@iflytek.com完成报名审核。


    4. 参赛选题 

    (1)竞赛背景

    文本校对任务主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本,这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说,一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此,本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。


    (2)赛题描述

    本次赛题选择网络文本作为校对数据,从中检测并纠正错误,实现中文文本校对系统。即给定一段文本,校对系统从中检测出错误字词、错误类型,并进行纠正。具体的输入、输出及错误类型为:


    输入:输入文件包含若干行文本,每行文本对应句子ID和相应的待校对句。


    输出:输出文件每行对应句子ID及相应的校对结果。校对结果中每处错误需包含错误位置、错误类型、错误字词及正确字词,每处错误及多处错误间均以英文逗号分隔,文件编码采用utf8编码。


    错误类型:拼写错误,包括别字及别词;语法错误,包括冗余、缺失、乱序;语病错误,包括语义重复及句式杂糅。


    输入文件示例:

    pid=0011-1 关于瑞典时装公司HM拒绝使用新疆产品的言轮在华引发广泛声讨和抵制浪潮,有记者就此提问。华春莹标识:


    pid=0011-2 新疆棉花是世界上最好的棉花之一,不用是相关企业的损失;


    pid=0011-3 给老百姓包括少数民族群众提供更多的就业机会,一般正常人都都会觉得是件好事。


    pid=0011-4 因为他们自己上历史真的就这么干了上百年,所以现在以己度人;


    pid=0012-1

    第三局比赛俄罗女排的气势被完全压制,中国女排就此以一场3比0零封取得五连胜。


    pid=0013-1 ④中国光明磊落,中国人民友善开放,但中国民意不可欺不可违。


    pid=0023-1 对学校的未来发展,专家们提出了许多真知灼见的意见。


    pid=0069-1 高速公路上交通事故的主要原因是司机违反交通规则或操作不当造成的。

    输出文件示例:

    pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,


    pid=0011-2, -1


    pid=0011-3, 28, 冗余, 都, ,


    pid=0011-4, 6, 乱序, 上历史, 历史上,


    pid=0012-1, 7, 缺失, , 斯,


    pid=0013-1, -1


    pid=0023-1, 21, 语义重复, 的意见, ,


    pid=0069-1, 29, 句式杂糅, 造成的, ,

    (3)模型训练

    主办方提供如下解题思路供参赛选手参考,选手可按照如下思路开发文本校对模型,也可选择其他人工智能方法,思路不限。


    解题思路:

    ①使用序列标注模型进行错误检测,使用语言模型对错误进行纠正

    ②使用Seq2seq模型对整个句子进行纠正


    (4)训练集数据介绍

    主办方提供部分伪数据,初赛大致规模为10万句,复赛将公开更多伪数据。参赛队伍也可以使用公开数据集及其他开放型数据。


    训练数据及Baseline将在如下网站进行公开:

    https://github.com/destwang/CTC2021


    现有公开数据集如下:

    CGED历年公开数据集

    http://www.cged.tech/

    NLPCC2018语法纠错数据集

    http://tcci.ccf.org.cn/conference/2018/taskdata.php

    SIGHAN及相关训练集

    http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html


    5.作品要求

    参赛队的参赛内容应该是参赛队员独立设计、开发完成的作品,严禁抄袭、剽窃等行为。凡发现抄袭、剽窃等行为,将取消参赛队伍的参赛资格,并追究相关指导教师和单位的责任。


  • 三、竞赛时间安排
  • 2021年6月10日:发布大赛通知,开始报名

    2021年6月24日:发布示例样本,baseline模型及小批量伪数据

    2021年7月30日:报名截止

    2021年8月2日:提交初赛系统截止日

    2021年8月5日:公布复赛名单,发布验证集样本,公开更多伪数据

    2021年8月31日:提交最终校对系统

    2021年9月8日:撰写技术评测报告,颁奖

    全国总决赛

    2021年10月:AI创新创业大赛的颁奖和路演

  • 四、竞赛赛制
  • 1.比赛整体流程 

    (1)初赛:参赛队需于2021年7月30日前完成报名,并在数据发布之后从网站获取主办方发布的示例开发集、baseline模型和训练伪数据。之后即可开始数据处理与校对系统构建,2021年6月份开始online提交各自开发的文本校对结果参与测试结果评测排名,2021年8月2日为初赛最后结果提交更新日,评测结果超过baseline系统即可进入复赛。


    (2)复赛:复赛将于2021年8月5日开始,通过初赛的参赛队可从网站获取主办方发布的验证集样本及更多训练伪数据,在验证集基础上进行模型优化。2021年8月31日为复赛最后系统提交更新日。


    2.初赛评测规则

    主办方将对参赛队伍产生的测试结果与比赛主办方公布的标准结果进行一致性评估,最终得到各参赛队伍初赛作品的评测结果。考虑到文本校对中检测与纠正是两个结果,我们将综合考虑检测得分与纠正得分,具体的,评测结果 = 0.8 * 检测得分 + 0.2 * 纠正得分,其中检测得分和纠正得分均采用F-score计算。


    参赛队伍请自行使用官网上的测评程序对测试数据集的输出结果进行评估,如参赛队伍产生的校对结果文件未能与官网上的评估程序相兼容,则需自行对结果格式进行调整和修改。


    比赛主办方评选获奖者的主要依据:

    参赛作品在复赛数据集上达到的评测结果及评测报告。


    3.参赛规则介绍

    (1)允许使用开源代码、工具和公开数据集,及参赛队伍自己以往开发未公开的代码和数据集。


    (2)经组委会评估后确认获奖资格;如拒绝或未在规定时间内提供相应代码和文档则取消获奖资格。

  • 五、奖项设置
  • 本赛事最终选出冠军1队、亚军2队、季军3队,对应奖励如下:

    冠军赛队(1队)奖金15000元人民币/队;

    亚军赛队(2队)奖金10000元人民币/队;

    季军赛队(3队)奖金 5000元人民币/队。

  • 六、竞赛管理
  • 1.参赛费用

    本次参赛不收取任何费用。


    2.餐饮住宿

    参加决赛队伍的教师和学生在决赛期间的食宿费用、交通费用及其他费用均自理。


    3.竞赛秘书处联系方式

    大赛官网:http://2021aichina.caai.cn/

    报名网站:

    https://competitions.codalab.org/competitions/32702

    数据集及消息通知:

    https://github.com/destwang/CTC2021

    邮箱:rdg_feiying@iflytek.com

一、大赛机构

 1.主办单位

 中国人工智能学会 

2.组织单位 

科大讯飞股份有限公司 

3. 承办单位 

认知智能国家重点实验室(科大讯飞)

哈尔滨工业大学社会计算与信息检索研究中心

二、参赛办法

1.参赛对象 

本次大赛是面向全国高校,科研机构,和涉及自然语言处理、数据挖掘、知识图谱等技术的人工智能领域企业的赛事,欢迎各单位或个人积极组织队伍申报参赛。


2.参赛组队形式

选手可在网上自行组队报名,每支队伍包含 3-5 名队员,选手的地区、年龄、职业不限,每队至少有一名中国国籍选手。


如果参赛队伍以公司为单位参赛,需已注册成立企业;高校以团队为单位参赛,则需由指导教师带领。参赛个人及单位要求无不良记录;参赛项目的产品、技术及相关专利专属于参赛团队及个人,与其他任何单位或个人无产权纠纷,如在参赛期间发现有侵犯外单位知识产权或盗用成果等纠纷,一经核实,立即终止该参赛队参赛资格,取消其已获得的奖项。


3. 报名方式

2021年7月30日前,参赛队伍可登录大赛官网http://2021aichina.caai.cn/或直接登陆比赛指定平台https://competitions.codalab.org/competitions/32702的报名系统中在线报名,并根据网站要求填写队伍信息发邮件至rdg_feiying@iflytek.com完成报名审核。


4. 参赛选题 

(1)竞赛背景

文本校对任务主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本,这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说,一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此,本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。


(2)赛题描述

本次赛题选择网络文本作为校对数据,从中检测并纠正错误,实现中文文本校对系统。即给定一段文本,校对系统从中检测出错误字词、错误类型,并进行纠正。具体的输入、输出及错误类型为:


输入:输入文件包含若干行文本,每行文本对应句子ID和相应的待校对句。


输出:输出文件每行对应句子ID及相应的校对结果。校对结果中每处错误需包含错误位置、错误类型、错误字词及正确字词,每处错误及多处错误间均以英文逗号分隔,文件编码采用utf8编码。


错误类型:拼写错误,包括别字及别词;语法错误,包括冗余、缺失、乱序;语病错误,包括语义重复及句式杂糅。


输入文件示例:

pid=0011-1 关于瑞典时装公司HM拒绝使用新疆产品的言轮在华引发广泛声讨和抵制浪潮,有记者就此提问。华春莹标识:


pid=0011-2 新疆棉花是世界上最好的棉花之一,不用是相关企业的损失;


pid=0011-3 给老百姓包括少数民族群众提供更多的就业机会,一般正常人都都会觉得是件好事。


pid=0011-4 因为他们自己上历史真的就这么干了上百年,所以现在以己度人;


pid=0012-1

第三局比赛俄罗女排的气势被完全压制,中国女排就此以一场3比0零封取得五连胜。


pid=0013-1 ④中国光明磊落,中国人民友善开放,但中国民意不可欺不可违。


pid=0023-1 对学校的未来发展,专家们提出了许多真知灼见的意见。


pid=0069-1 高速公路上交通事故的主要原因是司机违反交通规则或操作不当造成的。

输出文件示例:

pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,


pid=0011-2, -1


pid=0011-3, 28, 冗余, 都, ,


pid=0011-4, 6, 乱序, 上历史, 历史上,


pid=0012-1, 7, 缺失, , 斯,


pid=0013-1, -1


pid=0023-1, 21, 语义重复, 的意见, ,


pid=0069-1, 29, 句式杂糅, 造成的, ,

(3)模型训练

主办方提供如下解题思路供参赛选手参考,选手可按照如下思路开发文本校对模型,也可选择其他人工智能方法,思路不限。


解题思路:

①使用序列标注模型进行错误检测,使用语言模型对错误进行纠正

②使用Seq2seq模型对整个句子进行纠正


(4)训练集数据介绍

主办方提供部分伪数据,初赛大致规模为10万句,复赛将公开更多伪数据。参赛队伍也可以使用公开数据集及其他开放型数据。


训练数据及Baseline将在如下网站进行公开:

https://github.com/destwang/CTC2021


现有公开数据集如下:

CGED历年公开数据集

http://www.cged.tech/

NLPCC2018语法纠错数据集

http://tcci.ccf.org.cn/conference/2018/taskdata.php

SIGHAN及相关训练集

http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html


5.作品要求

参赛队的参赛内容应该是参赛队员独立设计、开发完成的作品,严禁抄袭、剽窃等行为。凡发现抄袭、剽窃等行为,将取消参赛队伍的参赛资格,并追究相关指导教师和单位的责任。


三、竞赛时间安排

2021年6月10日:发布大赛通知,开始报名

2021年6月24日:发布示例样本,baseline模型及小批量伪数据

2021年7月30日:报名截止

2021年8月2日:提交初赛系统截止日

2021年8月5日:公布复赛名单,发布验证集样本,公开更多伪数据

2021年8月31日:提交最终校对系统

2021年9月8日:撰写技术评测报告,颁奖

全国总决赛

2021年10月:AI创新创业大赛的颁奖和路演

四、竞赛赛制

1.比赛整体流程 

(1)初赛:参赛队需于2021年7月30日前完成报名,并在数据发布之后从网站获取主办方发布的示例开发集、baseline模型和训练伪数据。之后即可开始数据处理与校对系统构建,2021年6月份开始online提交各自开发的文本校对结果参与测试结果评测排名,2021年8月2日为初赛最后结果提交更新日,评测结果超过baseline系统即可进入复赛。


(2)复赛:复赛将于2021年8月5日开始,通过初赛的参赛队可从网站获取主办方发布的验证集样本及更多训练伪数据,在验证集基础上进行模型优化。2021年8月31日为复赛最后系统提交更新日。


2.初赛评测规则

主办方将对参赛队伍产生的测试结果与比赛主办方公布的标准结果进行一致性评估,最终得到各参赛队伍初赛作品的评测结果。考虑到文本校对中检测与纠正是两个结果,我们将综合考虑检测得分与纠正得分,具体的,评测结果 = 0.8 * 检测得分 + 0.2 * 纠正得分,其中检测得分和纠正得分均采用F-score计算。


参赛队伍请自行使用官网上的测评程序对测试数据集的输出结果进行评估,如参赛队伍产生的校对结果文件未能与官网上的评估程序相兼容,则需自行对结果格式进行调整和修改。


比赛主办方评选获奖者的主要依据:

参赛作品在复赛数据集上达到的评测结果及评测报告。


3.参赛规则介绍

(1)允许使用开源代码、工具和公开数据集,及参赛队伍自己以往开发未公开的代码和数据集。


(2)经组委会评估后确认获奖资格;如拒绝或未在规定时间内提供相应代码和文档则取消获奖资格。

五、奖项设置

本赛事最终选出冠军1队、亚军2队、季军3队,对应奖励如下:

冠军赛队(1队)奖金15000元人民币/队;

亚军赛队(2队)奖金10000元人民币/队;

季军赛队(3队)奖金 5000元人民币/队。

六、竞赛管理

1.参赛费用

本次参赛不收取任何费用。


2.餐饮住宿

参加决赛队伍的教师和学生在决赛期间的食宿费用、交通费用及其他费用均自理。


3.竞赛秘书处联系方式

大赛官网:http://2021aichina.caai.cn/

报名网站:

https://competitions.codalab.org/competitions/32702

数据集及消息通知:

https://github.com/destwang/CTC2021

邮箱:rdg_feiying@iflytek.com