Zal Het Morgen Nog Steeds Waar Zijn? Meertalige Classificatie van Altijd Actuele Vragen om Betrouwbare Vraag-Antwoordsystemen te Verbeteren
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
May 27, 2025
Auteurs: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hallucineren vaak bij vraag-antwoordtaken (QA). Een belangrijke maar onderbelichte factor die hieraan bijdraagt, is de temporaliteit van vragen -- of ze evergreen zijn (antwoorden blijven stabiel in de tijd) of veranderlijk (antwoorden veranderen). In dit werk introduceren we EverGreenQA, de eerste meertalige QA-dataset met evergreen-labels, die zowel evaluatie als training ondersteunt. Met behulp van EverGreenQA testen we 12 moderne LLMs om te beoordelen of ze vraag-temporaliteit expliciet coderen (via verbaal uitgesproken oordelen) of impliciet (via onzekerheidssignalen). We trainen ook EG-E5, een lichtgewicht meertalige classificator die state-of-the-art prestaties behaalt voor deze taak. Tot slot demonstreren we de praktische bruikbaarheid van evergreen-classificatie in drie toepassingen: het verbeteren van zelfkennis-schatting, het filteren van QA-datasets en het verklaren van het ophaalgedrag van GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA)
tasks. A key yet underexplored factor contributing to this is the temporality
of questions -- whether they are evergreen (answers remain stable over time) or
mutable (answers change). In this work, we introduce EverGreenQA, the first
multilingual QA dataset with evergreen labels, supporting both evaluation and
training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they
encode question temporality explicitly (via verbalized judgments) or implicitly
(via uncertainty signals). We also train EG-E5, a lightweight multilingual
classifier that achieves SoTA performance on this task. Finally, we demonstrate
the practical utility of evergreen classification across three applications:
improving self-knowledge estimation, filtering QA datasets, and explaining
GPT-4o retrieval behavior.