ChatPaper.aiChatPaper

El Curioso Caso de la (Des)Alineación de Hechos entre las Respuestas Cortas y Extensas de los Modelos de Lenguaje de Gran Escala

The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers

October 13, 2025
Autores: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden responder correctamente "¿Cuándo nació Einstein?" pero fallan al proporcionar la misma fecha cuando escriben sobre la vida de Einstein, revelando una inconsistencia fundamental en cómo los modelos acceden al conocimiento factual a través de las complejidades de las tareas. Aunque los modelos muestran una precisión impresionante en los benchmarks de respuesta a preguntas factuales, la brecha de confiabilidad entre consultas simples y complejas sigue siendo poco comprendida, lo que erosiona su fiabilidad. En este trabajo, presentamos la Alineación de Formas Cortas y Largas para la Respuesta a Preguntas Factuales (SLAQ, por sus siglas en inglés), un marco de evaluación controlado que compara las respuestas de los LLMs a las mismas preguntas factuales formuladas (a) de manera aislada (corta) frente a (b) integradas en consultas complejas (largas). Al analizar 16 LLMs en 600 consultas, encontramos una desalineación sistemática de las respuestas a las consultas cortas y largas correspondientes. Además, descubrimos una pérdida de precisión dependiente de la posición y efectos de momentum, donde respuestas correctas o incorrectas consecutivas crean patrones autorreforzantes. A través de un análisis mecanicista, encontramos que los hechos alineados activan internos del modelo superpuestos, y que las métricas basadas en la similitud mecanicista pueden predecir la alineación de respuestas cortas y largas con una precisión de hasta el 78%. Nuestro trabajo establece la consistencia factual sobre la complejidad de las consultas como un aspecto importante de la confiabilidad de los LLMs y desafía las prácticas de evaluación actuales, que asumen implícitamente que un buen rendimiento en consultas factuales simples implica también fiabilidad en tareas de búsqueda de conocimiento más complejas.
English
Large language models (LLMs) can correctly answer "When was Einstein born?" yet fail to provide the same date when writing about Einstein's life revealing a fundamental inconsistency in how models access factual knowledge across task complexities. While models display impressive accuracy on factual question-answering benchmarks, the reliability gap between simple and complex queries remains poorly understood, eroding their trustworthiness. In this work, we introduce Short-Long Form Alignment for Factual Question Answering (SLAQ), a controlled evaluation framework that compares LLMs' answers to the same factual questions asked (a) in isolation (short) vs. (b) integrated into complex queries (long). Looking at 16 LLMs across 600 queries, we find a systematic misalignment of answers to the corresponding short and long queries. We further uncover position-dependent accuracy loss and momentum effects where consecutive correct or incorrect answers create self-reinforcing patterns. Through mechanistic analysis, we find that aligned facts activate overlapping model internals, and that metrics based on mechanistic similarity can predict short-long answer alignment with up to 78% accuracy. Our work establishes factual consistency over query complexity as an important aspect of LLMs' trustworthiness and challenges current evaluation practices, which implicitly assume that good performance for simple factual queries implies reliability in more complex knowledge-seeking tasks too.
PDF02October 14, 2025