【海韵讲座】 2022年第10期-guiding document encoding for sequence-to-sequence tasks -- a soft constraint method
报告题目:guiding document encoding for sequence-to-sequence tasks -- a soft constraint method
主讲人:张岳 西湖大学特聘研究员
时间:2022年04月29日(星期五)上午10:30
地点:腾讯会议号575-404-077
摘要:
文档级别的nlp任务近年来受到越来越多的重视,比如共指消解、篇章分析、摘要、关系抽取、机器翻译等。文档级别nlp任务面临两个根本的挑战:1)数据集规模普遍比较小,样本量比句子级别任务的小一到两个数据量级;2)需要对较长文档上下文的整体理解。当前工作在文档级别nlp任务上的建模方法可以分为两大类:一类在句子的建模基础上构建整篇文档的建模,比如层次模型;另一类直接将整篇文档作为一个完整序列进行建模,比如transformer。这两类方法在建模时,要么聚焦与每个句子而忽视文档上下文,要么关注文档上下文而失去的局部的聚焦。针对这些问题,我们提出了一类简单有效的方法—guided document encoding,并在文本摘要和文档级别机器翻译任务上进行了验证。实验表明,这类方法能较好的平衡对句子内容的聚焦和对文档上下文的注意力的冲突,在transformer训练失败的小规模文档级别机器翻译数据集上也能获得sota效果。
报告人简介:
张岳老师的主要研究领域为自然语言处理、文本挖掘、机器学习等。研究成果包括自左向右处理文本的结构预测算法、多任务融合学习的联合模型、自然语言处理和人类常识研究,以及金融市场应用。发表国际期刊论文50余篇,ccf-a/b 类国际会议论文200余篇。获ccf2018中文计算与自然语言处理青年新锐奖、semeval2020 honorable mention、coling2018和ialp2017最佳论文奖等奖项。
邀请人:人工智能系 苏劲松教授