ChatPaper.aiChatPaper

Wird es morgen noch wahr sein? Multilinguale Klassifikation von zeitbeständigen Fragen zur Verbesserung vertrauenswürdiger Frage-Antwort-Systeme

Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27, 2025
Autoren: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) neigen oft zu Halluzinationen bei Aufgaben zur Fragebeantwortung (QA). Ein wichtiger, jedoch bisher wenig erforschter Faktor, der dazu beiträgt, ist die Zeitlichkeit von Fragen – ob sie zeitlos (Antworten bleiben über die Zeit stabil) oder veränderlich (Antworten ändern sich) sind. In dieser Arbeit stellen wir EverGreenQA vor, den ersten mehrsprachigen QA-Datensatz mit zeitlosen Labels, der sowohl die Evaluation als auch das Training unterstützt. Mit EverGreenQA benchmarken wir 12 moderne LLMs, um zu bewerten, ob sie die Zeitlichkeit von Fragen explizit (über verbalisierte Urteile) oder implizit (über Unsicherheitssignale) kodieren. Wir trainieren außerdem EG-E5, einen leichten mehrsprachigen Klassifikator, der Spitzenleistungen bei dieser Aufgabe erzielt. Schließlich demonstrieren wir den praktischen Nutzen der zeitlosen Klassifikation in drei Anwendungen: Verbesserung der Selbsteinschätzung, Filterung von QA-Datensätzen und Erklärung des Retrieval-Verhaltens von GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA) tasks. A key yet underexplored factor contributing to this is the temporality of questions -- whether they are evergreen (answers remain stable over time) or mutable (answers change). In this work, we introduce EverGreenQA, the first multilingual QA dataset with evergreen labels, supporting both evaluation and training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they encode question temporality explicitly (via verbalized judgments) or implicitly (via uncertainty signals). We also train EG-E5, a lightweight multilingual classifier that achieves SoTA performance on this task. Finally, we demonstrate the practical utility of evergreen classification across three applications: improving self-knowledge estimation, filtering QA datasets, and explaining GPT-4o retrieval behavior.
PDF1184June 9, 2025