Будет ли это верно завтра? Классификация многоязычных "вечнозеленых" вопросов для повышения доверия к системам вопросно-ответного поискаWill It Still Be True Tomorrow? Multilingual Evergreen Question
Classification to Improve Trustworthy QA
Крупные языковые модели (LLMs) часто допускают галлюцинации в задачах ответа на вопросы (QA). Одним из ключевых, но недостаточно изученных факторов, способствующих этому, является временная характеристика вопросов — являются ли они вечнозелеными (ответы остаются стабильными с течением времени) или изменчивыми (ответы меняются). В данной работе мы представляем EverGreenQA — первый многоязычный набор данных для QA с метками вечнозеленых вопросов, поддерживающий как оценку, так и обучение. Используя EverGreenQA, мы проводим тестирование 12 современных LLM, чтобы оценить, кодируют ли они временную характеристику вопросов явно (через вербализованные суждения) или неявно (через сигналы неопределенности). Мы также обучаем EG-E5 — легковесный многоязычный классификатор, который достигает наилучших результатов на этой задаче. Наконец, мы демонстрируем практическую полезность классификации вечнозеленых вопросов в трех приложениях: улучшение оценки самопознания, фильтрация наборов данных QA и объяснение поведения GPT-4o при извлечении информации.