ChatPaper.aiChatPaper

¿Seguirá siendo cierto mañana? Clasificación de preguntas perennes multilingües para mejorar la confiabilidad en sistemas de preguntas y respuestas

Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27, 2025
Autores: Sergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo alucinan en tareas de respuesta a preguntas (QA, por sus siglas en inglés). Un factor clave pero poco explorado que contribuye a esto es la temporalidad de las preguntas: si son perennes (las respuestas permanecen estables en el tiempo) o mutables (las respuestas cambian). En este trabajo, presentamos EverGreenQA, el primer conjunto de datos multilingüe de QA con etiquetas perennes, que permite tanto la evaluación como el entrenamiento. Utilizando EverGreenQA, evaluamos 12 LLMs modernos para determinar si codifican la temporalidad de las preguntas de manera explícita (a través de juicios verbalizados) o implícita (a través de señales de incertidumbre). También entrenamos EG-E5, un clasificador multilingüe ligero que alcanza un rendimiento de vanguardia en esta tarea. Finalmente, demostramos la utilidad práctica de la clasificación perenne en tres aplicaciones: mejorar la estimación del autoconocimiento, filtrar conjuntos de datos de QA y explicar el comportamiento de recuperación de GPT-4o.
English
Large Language Models (LLMs) often hallucinate in question answering (QA) tasks. A key yet underexplored factor contributing to this is the temporality of questions -- whether they are evergreen (answers remain stable over time) or mutable (answers change). In this work, we introduce EverGreenQA, the first multilingual QA dataset with evergreen labels, supporting both evaluation and training. Using EverGreenQA, we benchmark 12 modern LLMs to assess whether they encode question temporality explicitly (via verbalized judgments) or implicitly (via uncertainty signals). We also train EG-E5, a lightweight multilingual classifier that achieves SoTA performance on this task. Finally, we demonstrate the practical utility of evergreen classification across three applications: improving self-knowledge estimation, filtering QA datasets, and explaining GPT-4o retrieval behavior.
PDF1184June 9, 2025