明日是否依然成立?多语言常青问题分类提升可信问答系统Will It Still Be True Tomorrow? Multilingual Evergreen Question
Classification to Improve Trustworthy QA
大型语言模型(LLMs)在问答(QA)任务中常常出现幻觉现象。一个关键但尚未充分探讨的因素是问题的时间性——即它们是常青的(答案随时间保持稳定)还是可变的(答案会变化)。在本研究中,我们引入了EverGreenQA,这是首个带有常青标签的多语言QA数据集,支持评估与训练。利用EverGreenQA,我们对12个现代LLMs进行了基准测试,以评估它们是否通过显式(通过言语判断)或隐式(通过不确定性信号)方式编码问题的时间性。此外,我们训练了EG-E5,一个轻量级的多语言分类器,在该任务上达到了最先进的性能。最后,我们展示了常青分类在三个应用中的实际效用:提升自我知识估计、过滤QA数据集以及解释GPT-4o的检索行为。