인지, 추론, 사고, 계획: 대규모 다중모달 추론 모델에 대한 연구
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
저자: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
초록
추론은 지능의 핵심에 자리 잡고 있으며, 의사결정을 내리고 결론을 도출하며 다양한 영역에서 일반화할 수 있는 능력을 형성합니다. 인공지능 분야에서 시스템이 점점 더 개방적이고 불확실하며 다중 모달 환경에서 작동함에 따라, 추론은 강력하고 적응적인 행동을 가능하게 하는 데 필수적이 되었습니다. 대규모 다중 모달 추론 모델(Large Multimodal Reasoning Models, LMRMs)은 텍스트, 이미지, 오디오, 비디오와 같은 다양한 모달리티를 통합하여 복잡한 추론 능력을 지원하고 포괄적인 인지, 정확한 이해, 깊은 추론을 달성하기 위한 유망한 패러다임으로 등장했습니다. 연구가 진전됨에 따라, 다중 모달 추론은 모듈화된 인지 중심 파이프라인에서 통합된 언어 중심 프레임워크로 빠르게 진화하며 더 일관된 교차 모달 이해를 제공하고 있습니다. 명령어 튜닝과 강화 학습이 모델의 추론 능력을 개선했지만, 전모달 일반화, 추론 깊이, 그리고 에이전트 행동 측면에서 여전히 상당한 과제가 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 모달 추론 연구를 체계적이고 구조적으로 조사하며, 이 분야의 변화하는 설계 철학과 새롭게 부상하는 능력을 반영한 4단계 발전 로드맵을 중심으로 조직했습니다. 먼저, 표현, 정렬, 융합 단계에 걸쳐 추론이 암묵적으로 내재된 작업별 모듈 기반의 초기 연구를 검토합니다. 다음으로, 다중 모달 체인 오브 사고(Multimodal Chain-of-Thought, MCoT) 및 다중 모달 강화 학습과 같은 발전을 통해 추론을 다중 모달 대형 언어 모델(LLMs)로 통합한 최근 접근 방식을 살펴봅니다. 마지막으로, OpenAI O3 및 O4-mini의 도전적인 벤치마크와 실험 사례에서 얻은 경험적 통찰을 바탕으로, 복잡한 현실 세계 환경에서 확장 가능하고 에이전트적이며 적응적인 추론과 계획을 지원하기 위한 네이티브 대규모 다중 모달 추론 모델(Native Large Multimodal Reasoning Models, N-LMRMs)의 개념적 방향에 대해 논의합니다.
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.Summary
AI-Generated Summary