ChatPaper.aiChatPaper

LLM의 단문 및 장문 답변 간 사실적 (불)일치에 관한 흥미로운 사례

The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers

October 13, 2025
저자: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI

초록

대형 언어 모델(LLMs)은 "아인슈타인은 언제 태어났는가?"와 같은 질문에 정확히 답할 수 있지만, 아인슈타인의 삶에 대해 글을 쓸 때 동일한 날짜를 제공하지 못하는 경우가 있어, 모델이 다양한 작업 복잡도에 걸쳐 사실적 지식에 접근하는 방식에서 근본적인 불일치가 있음을 드러냅니다. 모델들은 사실적 질문-응답 벤치마크에서 인상적인 정확도를 보이지만, 단순한 질문과 복잡한 질문 간의 신뢰성 격차는 여전히 잘 이해되지 않고 있어 그들의 신뢰성을 훼손하고 있습니다. 본 연구에서는 단순한 질문과 복잡한 질문에 대한 LLMs의 답변을 비교하는 통제된 평가 프레임워크인 Short-Long Form Alignment for Factual Question Answering (SLAQ)를 소개합니다. 16개의 LLMs와 600개의 질문을 대상으로 분석한 결과, 단순 질문과 복잡 질문에 대한 답변 간의 체계적인 불일치를 발견했습니다. 또한, 위치에 따른 정확도 손실과 연속적인 정답 또는 오답이 자기 강화 패턴을 만드는 모멘텀 효과를 추가로 밝혀냈습니다. 기계적 분석을 통해, 일치하는 사실들이 모델 내부에서 중첩된 활성화를 유발하며, 기계적 유사성에 기반한 메트릭이 단순-복잡 질문 답변 일치를 최대 78%의 정확도로 예측할 수 있음을 발견했습니다. 본 연구는 질문 복잡도에 따른 사실적 일관성을 LLMs의 신뢰성의 중요한 측면으로 확립하고, 단순한 사실적 질문에 대한 우수한 성능이 더 복잡한 지식 탐색 작업에서도 신뢰성을 암시한다는 현재의 평가 관행에 도전합니다.
English
Large language models (LLMs) can correctly answer "When was Einstein born?" yet fail to provide the same date when writing about Einstein's life revealing a fundamental inconsistency in how models access factual knowledge across task complexities. While models display impressive accuracy on factual question-answering benchmarks, the reliability gap between simple and complex queries remains poorly understood, eroding their trustworthiness. In this work, we introduce Short-Long Form Alignment for Factual Question Answering (SLAQ), a controlled evaluation framework that compares LLMs' answers to the same factual questions asked (a) in isolation (short) vs. (b) integrated into complex queries (long). Looking at 16 LLMs across 600 queries, we find a systematic misalignment of answers to the corresponding short and long queries. We further uncover position-dependent accuracy loss and momentum effects where consecutive correct or incorrect answers create self-reinforcing patterns. Through mechanistic analysis, we find that aligned facts activate overlapping model internals, and that metrics based on mechanistic similarity can predict short-long answer alignment with up to 78% accuracy. Our work establishes factual consistency over query complexity as an important aspect of LLMs' trustworthiness and challenges current evaluation practices, which implicitly assume that good performance for simple factual queries implies reliability in more complex knowledge-seeking tasks too.
PDF02October 14, 2025