Será Verdade Amanhã? Classificação de Perguntas Perenes Multilíngues para Melhorar a Confiabilidade em QA
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
May 27, 2025
Autores: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) frequentemente alucinam em tarefas de resposta a perguntas (QA). Um fator crucial, mas pouco explorado, que contribui para isso é a temporalidade das perguntas -- se elas são perenes (as respostas permanecem estáveis ao longo do tempo) ou mutáveis (as respostas mudam). Neste trabalho, apresentamos o EverGreenQA, o primeiro conjunto de dados QA multilíngue com rótulos perenes, suportando tanto avaliação quanto treinamento. Utilizando o EverGreenQA, avaliamos 12 LLMs modernos para verificar se eles codificam a temporalidade das perguntas explicitamente (por meio de julgamentos verbalizados) ou implicitamente (por meio de sinais de incerteza). Também treinamos o EG-E5, um classificador multilíngue leve que alcança desempenho de estado da arte (SoTA) nessa tarefa. Por fim, demonstramos a utilidade prática da classificação perene em três aplicações: melhoria da estimativa de autoconhecimento, filtragem de conjuntos de dados QA e explicação do comportamento de recuperação do GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA)
tasks. A key yet underexplored factor contributing to this is the temporality
of questions -- whether they are evergreen (answers remain stable over time) or
mutable (answers change). In this work, we introduce EverGreenQA, the first
multilingual QA dataset with evergreen labels, supporting both evaluation and
training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they
encode question temporality explicitly (via verbalized judgments) or implicitly
(via uncertainty signals). We also train EG-E5, a lightweight multilingual
classifier that achieves SoTA performance on this task. Finally, we demonstrate
the practical utility of evergreen classification across three applications:
improving self-knowledge estimation, filtering QA datasets, and explaining
GPT-4o retrieval behavior.