더 많은 사고, 더 적은 관찰? 다중모달 추론 모델에서의 증폭된 환각 현상 평가
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
May 23, 2025
저자: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI
초록
테스트 시간 계산 능력은 멀티모달 대형 언어 모델이 확장된 추론 체인을 생성할 수 있게 하여, 멀티모달 수학 추론과 같은 작업에서 강력한 성능을 발휘하게 했습니다. 그러나 이러한 향상된 추론 능력은 종종 증가된 환각(hallucination)을 동반합니다: 생성물이 길어질수록 모델은 이미지에 기반한 콘텐츠에서 벗어나 언어적 사전 지식에 더 많이 의존하는 경향이 있습니다. 주의력 분석은 더 긴 추론 체인이 시각적 입력에 대한 초점을 감소시켜 환각에 기여한다는 것을 보여줍니다. 이 현상을 체계적으로 연구하기 위해, 우리는 RH-AUC라는 지표를 도입했습니다. 이 지표는 모델의 인식 정확도가 추론 길이에 따라 어떻게 변화하는지를 정량화하여, 모델이 추론 과정에서 시각적 근거를 유지하는지 평가할 수 있게 합니다. 또한, 우리는 추론 능력과 환각 사이의 균형을 평가하기 위해 다양한 멀티모달 작업을 아우르는 진단 벤치마크인 RH-Bench를 공개했습니다. 우리의 분석은 (i) 더 큰 모델이 일반적으로 추론과 인식 사이의 더 나은 균형을 달성하며, (ii) 이 균형은 전체 데이터 양보다는 훈련 데이터의 유형과 도메인에 의해 더 큰 영향을 받는다는 것을 보여줍니다. 이러한 발견들은 추론 품질과 지각적 충실도를 함께 고려하는 평가 프레임워크의 중요성을 강조합니다.
English
Test-time compute has empowered multimodal large language models to generate
extended reasoning chains, yielding strong performance on tasks such as
multimodal math reasoning. However, this improved reasoning ability often comes
with increased hallucination: as generations become longer, models tend to
drift away from image-grounded content and rely more heavily on language
priors. Attention analysis shows that longer reasoning chains lead to reduced
focus on visual inputs, which contributes to hallucination. To systematically
study this phenomenon, we introduce RH-AUC, a metric that quantifies how a
model's perception accuracy changes with reasoning length, allowing us to
evaluate whether the model preserves visual grounding during reasoning. We also
release RH-Bench, a diagnostic benchmark that spans a variety of multimodal
tasks, designed to assess the trade-off between reasoning ability and
hallucination. Our analysis reveals that (i) larger models typically achieve a
better balance between reasoning and perception, and (ii) this balance is
influenced more by the types and domains of training data than by its overall
volume. These findings underscore the importance of evaluation frameworks that
jointly consider both reasoning quality and perceptual fidelity.