ChatPaper.aiChatPaper

멀티모달 사고 연쇄 추론: 포괄적 조사

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

March 16, 2025
저자: Yaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei
cs.AI

초록

인간과 유사한 단계별 사고 과정인 사고의 연쇄(CoT) 추론의 장점을 다중모달(multimodal) 맥락으로 확장한 다중모달 CoT(MCoT) 추론은 최근 특히 다중모달 대형 언어 모델(MLLMs)과의 통합을 통해 상당한 연구 관심을 받고 있습니다. 기존의 MCoT 연구들은 이미지, 비디오, 음성, 오디오, 3D 및 구조화된 데이터 등 다양한 모달리티에서 발생하는 독특한 문제를 해결하기 위해 다양한 방법론과 혁신적인 추론 패러다임을 설계하며, 로보틱스, 헬스케어, 자율주행, 다중모달 생성 등의 분야에서 광범위한 성공을 거두었습니다. 그러나 MCoT는 여전히 독특한 도전과 기회를 제공하며, 이 분야의 지속적인 발전을 보장하기 위해 추가적인 집중이 필요합니다. 안타깝게도 이 분야에 대한 최신 리뷰가 부족한 상황입니다. 이러한 격차를 메우기 위해, 우리는 MCoT 추론에 대한 첫 번째 체계적인 조사를 제시하며, 관련 기초 개념과 정의를 명확히 합니다. 또한 다양한 응용 시나리오를 아우르는 포괄적인 분류 체계와 현재 방법론에 대한 심층 분석을 제공합니다. 더 나아가, 기존의 도전 과제와 미래 연구 방향에 대한 통찰을 제공함으로써 다중모달 AGI(인공 일반 지능)를 향한 혁신을 촉진하고자 합니다.
English
By extending the advantage of chain-of-thought (CoT) reasoning in human-like step-by-step processes to multimodal contexts, multimodal CoT (MCoT) reasoning has recently garnered significant research attention, especially in the integration with multimodal large language models (MLLMs). Existing MCoT studies design various methodologies and innovative reasoning paradigms to address the unique challenges of image, video, speech, audio, 3D, and structured data across different modalities, achieving extensive success in applications such as robotics, healthcare, autonomous driving, and multimodal generation. However, MCoT still presents distinct challenges and opportunities that require further focus to ensure consistent thriving in this field, where, unfortunately, an up-to-date review of this domain is lacking. To bridge this gap, we present the first systematic survey of MCoT reasoning, elucidating the relevant foundational concepts and definitions. We offer a comprehensive taxonomy and an in-depth analysis of current methodologies from diverse perspectives across various application scenarios. Furthermore, we provide insights into existing challenges and future research directions, aiming to foster innovation toward multimodal AGI.

Summary

AI-Generated Summary

PDF342March 18, 2025