눈에 띄지 않는 곳에 숨겨진 것: 다중모달 언어 모델의 암묵적 추론 탐구
Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models
May 30, 2025
저자: Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
cs.AI
초록
다중모달 대형 언어 모델(MLLMs)은 입력이 복잡하고 불완전하며 항상 신뢰할 수 없는 개방형 실세계 환경에서 점점 더 많이 배포되고 있다. 정제된 벤치마크와 달리, 이러한 환경에서는 누락된 객체나 모순된 사실을 참조하거나 모호한 참조에 의존하거나 실행 불가능한 행동을 요구하는 지시가 빈번히 발생한다. 이러한 경우, 성공은 단순히 작업 실행에만 달려 있는 것이 아니라, 무언가가 조용히 잘못되었음을 감지하는 모델의 능력에 달려 있다. 본 논문은 현재의 MLLMs가 이러한 암묵적 추론 시나리오, 즉 결함이 명시적으로 언급되지 않았지만 맥락에서 추론해야 하는 경우를 어떻게 처리하는지에 대한 체계적인 분석을 제시한다. 실세계 실패 모드의 네 가지 범주를 아우르는 정제된 진단 도구를 사용하여, o3와 GPT-4o를 포함한 여섯 가지 MLLMs를 평가한 결과, 모델들이 필요한 지각 및 추론 능력을 갖추고 있음에도 불구하고 숨겨진 문제를 자주 발견하지 못하는 것으로 나타났다. 명시적인 프롬프팅은 기본적인 능력이 존재하지만 사용자 준수를 우선시하여 종종 억제되고 있음을 보여준다. 또한, 신중한 페르소나 프롬프팅과 특히 명확한 질문을 요구하는 것과 같은 간단한 추론 시점 개입이 성능을 극적으로 회복시킬 수 있음을 보여준다. 본 연구 결과는 현재 MLLMs의 추론 능력과 행동적 준수 사이에 지속적인 격차가 있음을 강조하며, 제약이 적은 환경에서 이러한 모델을 더 신뢰할 수 있도록 만드는 실용적인 전략을 제안한다.
English
Multimodal large language models (MLLMs) are increasingly deployed in
open-ended, real-world environments where inputs are messy, underspecified, and
not always trustworthy. Unlike curated benchmarks, these settings frequently
involve instructions that refer to missing objects or contradictory facts, rely
on ambiguous references, or request infeasible actions. In such cases, success
hinges not on task execution alone, but on a model's ability to detect when
something is silently wrong. This paper presents a systematic analysis of how
current MLLMs handle such implicit reasoning scenarios: cases where the flaw is
not explicitly stated but must be inferred from context. Using a curated
diagnostic suite spanning four categories of real-world failure modes, we
evaluate six MLLMs, including o3 and GPT-4o, and find that models frequently
fail to surface hidden issues, even when they possess the necessary perceptual
and reasoning skills. Explicit prompting reveals that the underlying
capabilities exist but are often suppressed in favor of user compliance. We
further show that simple inference-time interventions, such as cautious persona
prompting and, in particular, requiring a clarifying question, can dramatically
recover performance. Our findings highlight a persistent gap between reasoning
competence and behavioral compliance in current MLLMs and suggest practical
strategies for making these models more trustworthy in underconstrained
environments.