Sera-t-il encore vrai demain ? Classification multilingue des questions pérennes pour améliorer la fiabilité des systèmes de question-réponseWill It Still Be True Tomorrow? Multilingual Evergreen Question
Classification to Improve Trustworthy QA
Les grands modèles de langage (LLMs) produisent souvent des hallucinations dans les tâches de question-réponse (QA). Un facteur clé mais encore peu exploré contribuant à ce phénomène est la temporalité des questions — c'est-à-dire si elles sont pérennes (les réponses restent stables dans le temps) ou mutables (les réponses changent). Dans ce travail, nous introduisons EverGreenQA, le premier ensemble de données multilingue de QA avec des étiquettes pérennes, permettant à la fois l'évaluation et l'entraînement. En utilisant EverGreenQA, nous évaluons 12 LLMs modernes pour déterminer s'ils encodent la temporalité des questions explicitement (via des jugements verbalisés) ou implicitement (via des signaux d'incertitude). Nous entraînons également EG-E5, un classifieur multilingue léger qui atteint des performances de pointe sur cette tâche. Enfin, nous démontrons l'utilité pratique de la classification pérenne à travers trois applications : l'amélioration de l'estimation de l'auto-connaissance, le filtrage des ensembles de données QA, et l'explication du comportement de récupération de GPT-4o.