ChatPaper.aiChatPaper

O Curioso Caso do (Des)Alinhamento Factual entre as Respostas Curtas e Longas de LLMs

The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers

October 13, 2025
Autores: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) podem responder corretamente "Quando Einstein nasceu?", mas falham em fornecer a mesma data ao escrever sobre a vida de Einstein, revelando uma inconsistência fundamental em como os modelos acessam conhecimento factual em diferentes complexidades de tarefas. Embora os modelos demonstrem precisão impressionante em benchmarks de resposta a perguntas factuais, a lacuna de confiabilidade entre consultas simples e complexas permanece pouco compreendida, minando sua confiabilidade. Neste trabalho, introduzimos o Alinhamento de Formato Curto-Longo para Resposta a Perguntas Factuais (SLAQ), uma estrutura de avaliação controlada que compara as respostas dos LLMs às mesmas perguntas factuais feitas (a) isoladamente (curto) versus (b) integradas em consultas complexas (longo). Analisando 16 LLMs em 600 consultas, encontramos um desalinhamento sistemático das respostas às consultas curtas e longas correspondentes. Além disso, descobrimos perda de precisão dependente da posição e efeitos de momentum, onde respostas corretas ou incorretas consecutivas criam padrões auto-reforçadores. Através de análise mecanicista, descobrimos que fatos alinhados ativam internos do modelo sobrepostos, e que métricas baseadas em similaridade mecanicista podem prever o alinhamento de respostas curtas-longas com até 78% de precisão. Nosso trabalho estabelece a consistência factual sobre a complexidade da consulta como um aspecto importante da confiabilidade dos LLMs e desafia as práticas atuais de avaliação, que implicitamente assumem que um bom desempenho em consultas factuais simples implica confiabilidade em tarefas de busca de conhecimento mais complexas também.
English
Large language models (LLMs) can correctly answer "When was Einstein born?" yet fail to provide the same date when writing about Einstein's life revealing a fundamental inconsistency in how models access factual knowledge across task complexities. While models display impressive accuracy on factual question-answering benchmarks, the reliability gap between simple and complex queries remains poorly understood, eroding their trustworthiness. In this work, we introduce Short-Long Form Alignment for Factual Question Answering (SLAQ), a controlled evaluation framework that compares LLMs' answers to the same factual questions asked (a) in isolation (short) vs. (b) integrated into complex queries (long). Looking at 16 LLMs across 600 queries, we find a systematic misalignment of answers to the corresponding short and long queries. We further uncover position-dependent accuracy loss and momentum effects where consecutive correct or incorrect answers create self-reinforcing patterns. Through mechanistic analysis, we find that aligned facts activate overlapping model internals, and that metrics based on mechanistic similarity can predict short-long answer alignment with up to 78% accuracy. Our work establishes factual consistency over query complexity as an important aspect of LLMs' trustworthiness and challenges current evaluation practices, which implicitly assume that good performance for simple factual queries implies reliability in more complex knowledge-seeking tasks too.
PDF02October 14, 2025