《现代国际关系》
文章摘要:图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中的大部分图片的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有的大多数研究工作专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了已有方法在实际场景中的应用。针对这一问题,提出基于动态语义记忆网络(Dynamic Semantic Memory Network,DSMN)的长尾图像描述生成模型,旨在保证模型对常用名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息以及当前输入图片和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.6028%,召回率为0.3234%,F-1值为0.3567%,相较于基准方法提升明显。
文章关键词: