Будет ли это верно завтра? Классификация многоязычных "вечнозеленых" вопросов для повышения доверия к системам вопросно-ответного поиска
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA
May 27, 2025
Авторы: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI
Аннотация
Крупные языковые модели (LLMs) часто допускают галлюцинации в задачах ответа на вопросы (QA). Одним из ключевых, но недостаточно изученных факторов, способствующих этому, является временная характеристика вопросов — являются ли они вечнозелеными (ответы остаются стабильными с течением времени) или изменчивыми (ответы меняются). В данной работе мы представляем EverGreenQA — первый многоязычный набор данных для QA с метками вечнозеленых вопросов, поддерживающий как оценку, так и обучение. Используя EverGreenQA, мы проводим тестирование 12 современных LLM, чтобы оценить, кодируют ли они временную характеристику вопросов явно (через вербализованные суждения) или неявно (через сигналы неопределенности). Мы также обучаем EG-E5 — легковесный многоязычный классификатор, который достигает наилучших результатов на этой задаче. Наконец, мы демонстрируем практическую полезность классификации вечнозеленых вопросов в трех приложениях: улучшение оценки самопознания, фильтрация наборов данных QA и объяснение поведения GPT-4o при извлечении информации.
English
Large Language Models (LLMs) often hallucinate in question answering (QA)
tasks. A key yet underexplored factor contributing to this is the temporality
of questions -- whether they are evergreen (answers remain stable over time) or
mutable (answers change). In this work, we introduce EverGreenQA, the first
multilingual QA dataset with evergreen labels, supporting both evaluation and
training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they
encode question temporality explicitly (via verbalized judgments) or implicitly
(via uncertainty signals). We also train EG-E5, a lightweight multilingual
classifier that achieves SoTA performance on this task. Finally, we demonstrate
the practical utility of evergreen classification across three applications:
improving self-knowledge estimation, filtering QA datasets, and explaining
GPT-4o retrieval behavior.