ChatPaper.aiChatPaper

Será Verdade Amanhã? Classificação de Perguntas Perenes Multilíngues para Melhorar a Confiabilidade em QA

Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27, 2025
Autores: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) frequentemente alucinam em tarefas de resposta a perguntas (QA). Um fator crucial, mas pouco explorado, que contribui para isso é a temporalidade das perguntas -- se elas são perenes (as respostas permanecem estáveis ao longo do tempo) ou mutáveis (as respostas mudam). Neste trabalho, apresentamos o EverGreenQA, o primeiro conjunto de dados QA multilíngue com rótulos perenes, suportando tanto avaliação quanto treinamento. Utilizando o EverGreenQA, avaliamos 12 LLMs modernos para verificar se eles codificam a temporalidade das perguntas explicitamente (por meio de julgamentos verbalizados) ou implicitamente (por meio de sinais de incerteza). Também treinamos o EG-E5, um classificador multilíngue leve que alcança desempenho de estado da arte (SoTA) nessa tarefa. Por fim, demonstramos a utilidade prática da classificação perene em três aplicações: melhoria da estimativa de autoconhecimento, filtragem de conjuntos de dados QA e explicação do comportamento de recuperação do GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA) tasks. A key yet underexplored factor contributing to this is the temporality of questions -- whether they are evergreen (answers remain stable over time) or mutable (answers change). In this work, we introduce EverGreenQA, the first multilingual QA dataset with evergreen labels, supporting both evaluation and training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they encode question temporality explicitly (via verbalized judgments) or implicitly (via uncertainty signals). We also train EG-E5, a lightweight multilingual classifier that achieves SoTA performance on this task. Finally, we demonstrate the practical utility of evergreen classification across three applications: improving self-knowledge estimation, filtering QA datasets, and explaining GPT-4o retrieval behavior.
PDF1264June 9, 2025