投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

基于深度学习的古汉语命名实体识别研究

来源:古汉语研究 【在线投稿】 栏目:期刊导读 时间:2021-01-28
作者:网站采编
关键词:
摘要:1.引言 命名实体识别[1] (Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)基础性工作之一,它可以准确地从文本中识别出人名、机构名、地名、时间等信息,为信息检索

1.引言

命名实体识别[1] (Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)基础性工作之一,它可以准确地从文本中识别出人名、机构名、地名、时间等信息,为信息检索、机器翻译、舆情分析等下游自然语言处理任务提供重要的特征信息。过去,命名实体识别任务多采用基于规则的方法、基于统计的方法和基于规则和统计相结合的方法[2]。

近年来,深度神经网络在自然语言处理领域广泛地受到关注,与上述方法相比,基于深度神经网络的方法具有更强的泛化能力、对人工特征依赖较少的优点。因此,面向现代汉语和英语等大语种,研究者已提出了许多基于深度神经网络的命名实体识别模型[3]-[18],但针对古汉语在这方面的研究才刚刚起步。

鉴于此,本文以《战国策》为例,根据古汉语独特的子语言特征,利用网格长短期记忆(Lattice LSTM)神经网络构建命名实体识别模型以解决古汉语中的信息提取问题。该方法将传统的LSTM单元改进为网格LSTM,在字模型的基础之上显性利用词与词序信息,从而避免了分词错误传递的问题。实验结果表明,Lattice LSTM能够学会从语境中自动找到所有与词典匹配的词汇,以取得较好的命名实体识别性能。在本研究构建的数据集上F1值达到92.16%。

2.模型

在英文领域,第一个采用神经网络进行命名实体识别的是Hammerton等人,由于LSTM良好的序列建模能力,LSTM-CRF [19]模型成为命名实体识别的基础架构之一,很多方法都是以LSTM-CRF为主体框架,在此之上融入各种相关特征。本文将LSTM-CRF作为主要网络结构,并且在该模型对一系列输入字符进行编码的同时将所有与词典匹配的词汇网格结构融入模型中。

一般将输入序列表示为 s = c1, c2,… , cn。其中,cj代表第j个字符。本文中应用t( i,k)表示索引j,代表第i个词的第k个字符。比如“医扁鹊”,索引从1开始,那么t (1 ,1) =1(医),t ( 2,1) = 2(扁)。本研究运用BIO标注策略进行字粒度和词粒度的命名实体识别标注,古汉语命名实体识别的字序列和标记序列举例说明如表1所示。

Table of character sequence and label sequence in ancient Chinese named entity recognition表1.古汉语命名实体识别的字序列和标记序列举例注:“O”是实体外部标记,“B”是实体开始标记,“I”是实体内部标记,“PER”表示人名,“POS”表示官职。字 舜 虽 贤 不 遇 尧 不 得 为 天 子 标记 B-PER O O O O B-PER O O O B-POS I-POS

2.1.基于字的模型

基于字的命名实体识别(见图1)存在一种缺陷,即无法充分利用词的显性以及词序信息。

Figure model图1.基于字符的模型

Figure lattice图2.词-字符网格

Figure model图模型

2.2.基于词的模型

基于词的模型见图4。

2. LSTM模型

本文利用Lattice LSTM [20]来处理句子中的词汇词(lexicon word),从而将所有潜在词信息全部整合到基于字符的LSTM-CRF中,见图2。并使用一个自动获取的词典来匹配句子,进而构建基于词的Lattice,见图3。由于在网格中存在指数数量的单词到字符路径,因此使用Lattice LSTM结构来自动控制从句子的开头到结尾的信息流。门控单元用于将不同路径的信息动态的传输到每个字符。在训练数据集上训练后,Lattice LSTM能够学会从信息流中自动找到有用的词,从而提升命名实体识别性能,见图5。与基于字符和基于词的命名实体识别方法相比,本文采用的模型优势在于利用词汇的显性信息进行分词,而不是仅仅自动关注,从而减少分词误差。

Figure model图4.基于词的模型

Figure LSTM model图 LSTM模型

2.4.LSTM层

RNN循环神经网络理论上可以处理任意长度的序列信息,但实际应用中,当序列过长时会出现梯度消失的问题,且很难学到长期依赖的特征。因此,Graves等人[21]改进了循环神经网络,提出长短期记忆网络(Long Short-Term Memory) LSTM模型。LSTM单元通过输入门、遗忘门和输出门来控制信息传递。它是一种特殊的RNN,能够学习长期的规律,应用十分广泛。LSTM编码单元如图6所示。

具体计算过程如公式(1)~(6)所示:

Figure 6.LSTM unit图6.LSTM编码单元

其中,σ是sigmoid函数,⊙是点积。xt为时刻t的输入向量,ht是隐藏状态,也是输出向量,包含前面t时刻所有有效信息。ct是一个更新门,控制信息流入下一个时刻;ft是一个遗忘门,控制信息丢失;二者共同决定隐藏状态的输出。

文章来源:《古汉语研究》 网址: http://www.ghyyjzzs.cn/qikandaodu/2021/0128/328.html



上一篇:中国优秀传统文化中的哲学思维初探
下一篇:那些催人奋进的『耻』味良药

古汉语研究投稿 | 古汉语研究编辑部| 古汉语研究版面费 | 古汉语研究论文发表 | 古汉语研究最新目录
Copyright © 2019 《古汉语研究》杂志社 版权所有
投稿电话: 投稿邮箱: