¿Seguirá siendo cierto mañana? Clasificación de preguntas perennes multilingües para mejorar la confiabilidad en sistemas de preguntas y respuestasWill It Still Be True Tomorrow? Multilingual Evergreen Question
Classification to Improve Trustworthy QA
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo alucinan en tareas de respuesta a preguntas (QA, por sus siglas en inglés). Un factor clave pero poco explorado que contribuye a esto es la temporalidad de las preguntas: si son perennes (las respuestas permanecen estables en el tiempo) o mutables (las respuestas cambian). En este trabajo, presentamos EverGreenQA, el primer conjunto de datos multilingüe de QA con etiquetas perennes, que permite tanto la evaluación como el entrenamiento. Utilizando EverGreenQA, evaluamos 12 LLMs modernos para determinar si codifican la temporalidad de las preguntas de manera explícita (a través de juicios verbalizados) o implícita (a través de señales de incertidumbre). También entrenamos EG-E5, un clasificador multilingüe ligero que alcanza un rendimiento de vanguardia en esta tarea. Finalmente, demostramos la utilidad práctica de la clasificación perenne en tres aplicaciones: mejorar la estimación del autoconocimiento, filtrar conjuntos de datos de QA y explicar el comportamiento de recuperación de GPT-4o.