Sarà ancora vero domani? Classificazione multilingue di domande evergreen per migliorare l'affidabilità dei sistemi di risposta alle domande
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
May 27, 2025
Autori: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) spesso producono allucinazioni nei compiti di risposta a domande (QA). Un fattore chiave ma ancora poco esplorato che contribuisce a questo fenomeno è la temporalità delle domande -- se sono evergreen (le risposte rimangono stabili nel tempo) o mutabili (le risposte cambiano). In questo lavoro, introduciamo EverGreenQA, il primo dataset QA multilingue con etichette evergreen, che supporta sia la valutazione che l'addestramento. Utilizzando EverGreenQA, valutiamo 12 moderni LLM per determinare se codificano la temporalità delle domande in modo esplicito (tramite giudizi verbalizzati) o implicito (tramite segnali di incertezza). Addestriamo inoltre EG-E5, un classificatore multilingue leggero che raggiunge prestazioni all'avanguardia in questo compito. Infine, dimostriamo l'utilità pratica della classificazione evergreen in tre applicazioni: migliorare la stima dell'autoconoscenza, filtrare dataset QA e spiegare il comportamento di recupero di GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA)
tasks. A key yet underexplored factor contributing to this is the temporality
of questions -- whether they are evergreen (answers remain stable over time) or
mutable (answers change). In this work, we introduce EverGreenQA, the first
multilingual QA dataset with evergreen labels, supporting both evaluation and
training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they
encode question temporality explicitly (via verbalized judgments) or implicitly
(via uncertainty signals). We also train EG-E5, a lightweight multilingual
classifier that achieves SoTA performance on this task. Finally, we demonstrate
the practical utility of evergreen classification across three applications:
improving self-knowledge estimation, filtering QA datasets, and explaining
GPT-4o retrieval behavior.