论文阅读《Cross-Lingual Contrastive Learning for Fine-Grained Entity Typing for Low-Resource Languages》

news/2024/7/4 10:03:41

Cross-Lingual Contrastive Learning for Fine-Grained Entity Typing for Low-Resource Languages

论文内容简介:

细粒度实体类型分析(Fine-grained entity typing,简称FGET)旨在将实体命名事件划分为细粒度的实体类型,这对于实体相关的NLP任务具有重要意义。

提出问题:FGET面临的一个关键挑战是资源匮乏问题复杂的实体类型层次结构使得人工标记数据变得困难。特别是对于英语以外的其他语言(如中文),人工标注数据极其稀缺。

本文解决方案:使用多语言预训练语言模型(PLMs)作为骨干,将高资源语言(如英语)的类型知识迁移到低资源语言(如汉语)。此外,引入面向实体对的启发式规则和机器翻译来获取跨语言远程监督数据,并在远程监督数据上应用跨语言对比学习增 强骨干PLMs

实验结果:没有任何特定于语言的人工标记数据,也可以轻松地学习到有效的低资源语言FGET模型。

难点:

1)不同语言具有截然不同的模式,同时理解高资源语言和低资源语言的语义是一项具有挑战性的工作。

2)只有少量的低资源语言实例,且没有平行数据,在不同语言之间架起知识迁移的桥梁也很困难。

解决思路:

1多语言预训练语言模型(PLMs)作为骨干。M-BERT等多语言PLMs在大规模多语言语料上进行预训练,以其为骨干可以很好地将不同语言的数据编码到相同的语义空间。

2应用启发式规则:设计了多个面向实体对的启发式规则用于远程监督,利用实体对之间的潜在关系自动标注实体类型。利用机器翻译对自动标注的数据进行翻译,建立高资源语言和低资源语言之间的联系。

3采用对比学习方法学习跨语言自动标注类型之间的相似性,而不是使用伪标签学习分类器,这可以增强类型识别能力并减少自动标注数据的副作用。

句子中实体的概率分类表示(1)
高资源语言和低资源语言的整体优化目标(2)
高资源语言和低资源语言的损失函数(3)

利用远程监督和机器翻译的优势,我们可以极大地扩展数据集。

为了使 FGET 模型更多地关注文本上下文而不是仅仅关注实体名称,我们使用[MASK]0.5的概率屏蔽实体。

三条规则:
(1)没有知识库的规则。
(2)带有知识库的规则。
(3)利用机器翻译构建跨语言数据

论文提出了面向实体对的启发式规则(figure d),以减少噪声对数据的自动标注。不再标注特定的实体类型,而是标注两次提及的实体是否具有相似的类型。

通过余弦相似度衡量两个句子实体之间的相似性。(4)
高资源语言与低资源语言各自的单语目标定义。(5)
高资源语言及其翻译的跨语言目标定义。(6)
跨语言对比学习的最终目标定义。(7)

整个学习过程分为两个阶段:预训练和微调

预训练阶段使用 Eq.(7) 来优化远程监督数据上的参数。考虑到计算效率,我们每次采样一批样本进行对比学习,然后为这批样本中的每一个样本采样多个正样本。

微调阶段使用 Eq.(2) 来微调人类标记数据上的参数以学习FGET 的分类器。

两个实体相关数据集Open-EntityFew-NERD在低资源(few-shot & zero-shot)全量数据集下进行实验。

Open-Entity包括 9 种一般类型和 121 种细粒度类型。 Open-Entity中的每个示例可能对应多个实体类型。

Few-NERD 包括 8 种一般类型和 66 种细粒度类型。

在实验中,我们需要模型预测句子中提到的每个实体的一般类型和细粒度类型。

选择英语作为高资源语言,汉语作为低资源语言。

少样本学习结果

F-T”来表示直接使用英语人类标签数据来微调。MONO-C”表示仅使用单语言对比学习目标进行预训练,然后使用英语的标记数据微调预训练参数。

零样本学习结果
消融实验
消融实验可视化

效果:

(1)所有的方法都可以在中文测试集上获得很好的实体分类结果,而无需使用任何中文人工标记样本作为训练模型。

(2)使用远程监督数据进行对比学习可以显著提高骨干PLMs的分类能力。

(3)与单语言对比学习相比,我们的跨语言对比学习能够更好地促进类型知识从高资源语言到低资源语言的迁移。

本文虽然有挂代码在github,但是缺少数据集无法复现。

https://github.com/thunlp/CrossET


http://www.niftyadmin.cn/n/4411452.html

相关文章

简单的neo4j三元组增量插入-通过py2neo实现

今天写了一个简单增量插入三元组的程序 1、查找实体类型对应的实例,放入list中,用于实例查重: # 查找实体类型对应实例,返回list def get_all_entities_of_ent_typ(graph, ent_typ):matcher NodeMatcher(graph)ent_list list(…

Steve Jobs的十句金玉良言

http://blog.csdn.net/zero8500/archive/2008/09/27/2987613.aspx

论文阅读《KnowPrompt: Knowledge-aware Prompt-tuning withSynergistic Optimization for Relation Extractio》

论文链接KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction Introduction 现有关系抽取存在的问题: 基于微调的关系抽取方法: (1)性能严重依赖耗时和劳动密集型的注释数据,难以很好地泛…

IE浏览器无法查看源文件的8大原因

问:无论是使用Outlook还是IE,点击鼠标右键,在弹出的快捷菜单中都会有“查看源文件”这一选项,奇怪的是,在我的电脑上竟然无法显示该邮件或网页的源文件,虽然这并没有影响到该软件的正常使用。请问&#xff…

论文阅读《Knowledge Collaborative Fine-tuning for Low-resource Knowledge GraphCompletion》

论文链接 基于知识协同微调的低资源知识图谱补全方法 2022年3月发表于软件学报 是浙大prompt系列的一个延续 本文之前的工作: AdaPrompt: Adaptive Prompt-based Finetuning for Relation Extraction 本文之后的工作: Knowledge-aware Prompt-tun…

北京几个区组成

北京由几个区组成北京,中华人民共和国首都,中央人民政府直辖市。建国后,北京市的行政区属有过多次变动,2006年,北京市辖16个市辖区、2个县。 市辖区 东城区 西城区 崇文区 宣武区 朝阳区 海淀区 丰台区 石景山区 门头沟…

论文阅读《Does William Shakespeare REALLY Write Hamlet? Knowledge RepresentationLearning with Confidenc》

Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence INTRODUCTION Q:可信的知识图谱构建方法去哪找? ①、传统的知识图谱构建方法通常需要大量的人工监督或专家标注,费时费力。 ②、自动化机制和众包在知识构…

北京的火车站

北京的火车站北京有4个火车站,分别是:北京站,北京西站,北京南站,北京北站。 下面是各个站的介绍: 北京站:北京站主要负责京沪线、京哈线的客运列车。 http://baike.baidu.com/view/49121.htm…