ChatPaper.aiChatPaper

Sera-t-il encore vrai demain ? Classification multilingue des questions pérennes pour améliorer la fiabilité des systèmes de question-réponse

Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27, 2025
Auteurs: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI

Résumé

Les grands modèles de langage (LLMs) produisent souvent des hallucinations dans les tâches de question-réponse (QA). Un facteur clé mais encore peu exploré contribuant à ce phénomène est la temporalité des questions — c'est-à-dire si elles sont pérennes (les réponses restent stables dans le temps) ou mutables (les réponses changent). Dans ce travail, nous introduisons EverGreenQA, le premier ensemble de données multilingue de QA avec des étiquettes pérennes, permettant à la fois l'évaluation et l'entraînement. En utilisant EverGreenQA, nous évaluons 12 LLMs modernes pour déterminer s'ils encodent la temporalité des questions explicitement (via des jugements verbalisés) ou implicitement (via des signaux d'incertitude). Nous entraînons également EG-E5, un classifieur multilingue léger qui atteint des performances de pointe sur cette tâche. Enfin, nous démontrons l'utilité pratique de la classification pérenne à travers trois applications : l'amélioration de l'estimation de l'auto-connaissance, le filtrage des ensembles de données QA, et l'explication du comportement de récupération de GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA) tasks. A key yet underexplored factor contributing to this is the temporality of questions -- whether they are evergreen (answers remain stable over time) or mutable (answers change). In this work, we introduce EverGreenQA, the first multilingual QA dataset with evergreen labels, supporting both evaluation and training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they encode question temporality explicitly (via verbalized judgments) or implicitly (via uncertainty signals). We also train EG-E5, a lightweight multilingual classifier that achieves SoTA performance on this task. Finally, we demonstrate the practical utility of evergreen classification across three applications: improving self-knowledge estimation, filtering QA datasets, and explaining GPT-4o retrieval behavior.
PDF1184June 9, 2025