인지, 추론, 사고, 계획: 대규모 다중모달 추론 모델에 대한 연구Perception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
추론은 지능의 핵심에 자리 잡고 있으며, 의사결정을 내리고 결론을 도출하며 다양한 영역에서 일반화할 수 있는 능력을 형성합니다. 인공지능 분야에서 시스템이 점점 더 개방적이고 불확실하며 다중 모달 환경에서 작동함에 따라, 추론은 강력하고 적응적인 행동을 가능하게 하는 데 필수적이 되었습니다. 대규모 다중 모달 추론 모델(Large Multimodal Reasoning Models, LMRMs)은 텍스트, 이미지, 오디오, 비디오와 같은 다양한 모달리티를 통합하여 복잡한 추론 능력을 지원하고 포괄적인 인지, 정확한 이해, 깊은 추론을 달성하기 위한 유망한 패러다임으로 등장했습니다. 연구가 진전됨에 따라, 다중 모달 추론은 모듈화된 인지 중심 파이프라인에서 통합된 언어 중심 프레임워크로 빠르게 진화하며 더 일관된 교차 모달 이해를 제공하고 있습니다. 명령어 튜닝과 강화 학습이 모델의 추론 능력을 개선했지만, 전모달 일반화, 추론 깊이, 그리고 에이전트 행동 측면에서 여전히 상당한 과제가 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 모달 추론 연구를 체계적이고 구조적으로 조사하며, 이 분야의 변화하는 설계 철학과 새롭게 부상하는 능력을 반영한 4단계 발전 로드맵을 중심으로 조직했습니다. 먼저, 표현, 정렬, 융합 단계에 걸쳐 추론이 암묵적으로 내재된 작업별 모듈 기반의 초기 연구를 검토합니다. 다음으로, 다중 모달 체인 오브 사고(Multimodal Chain-of-Thought, MCoT) 및 다중 모달 강화 학습과 같은 발전을 통해 추론을 다중 모달 대형 언어 모델(LLMs)로 통합한 최근 접근 방식을 살펴봅니다. 마지막으로, OpenAI O3 및 O4-mini의 도전적인 벤치마크와 실험 사례에서 얻은 경험적 통찰을 바탕으로, 복잡한 현실 세계 환경에서 확장 가능하고 에이전트적이며 적응적인 추론과 계획을 지원하기 위한 네이티브 대규모 다중 모달 추론 모델(Native Large Multimodal Reasoning Models, N-LMRMs)의 개념적 방향에 대해 논의합니다.