ChatPaper.aiChatPaper

マルチモーダル連鎖思考推論:包括的サーベイ

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

March 16, 2025
著者: Yaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei
cs.AI

要旨

人間のような段階的なプロセスにおける連鎖的思考(CoT)推論の利点をマルチモーダルな文脈に拡張することで、マルチモーダルCoT(MCoT)推論は最近、特にマルチモーダル大規模言語モデル(MLLMs)との統合において、重要な研究注目を集めています。既存のMCoT研究では、画像、動画、音声、オーディオ、3D、構造化データといった異なるモダリティに特有の課題に対処するため、様々な方法論や革新的な推論パラダイムが設計され、ロボティクス、医療、自動運転、マルチモーダル生成などの応用分野で広範な成功を収めています。しかし、MCoTは依然として独自の課題と機会を提示しており、この分野の持続的な発展を確保するためにはさらなる焦点が必要です。残念ながら、この領域に関する最新のレビューは不足しています。このギャップを埋めるため、我々はMCoT推論に関する初の体系的な調査を提示し、関連する基礎概念と定義を明らかにします。様々な応用シナリオにわたる多角的な視点から、現在の方法論の包括的な分類と詳細な分析を提供します。さらに、既存の課題と将来の研究方向性についての洞察を示し、マルチモーダルAGI(人工汎用知能)に向けたイノベーションを促進することを目指します。
English
By extending the advantage of chain-of-thought (CoT) reasoning in human-like step-by-step processes to multimodal contexts, multimodal CoT (MCoT) reasoning has recently garnered significant research attention, especially in the integration with multimodal large language models (MLLMs). Existing MCoT studies design various methodologies and innovative reasoning paradigms to address the unique challenges of image, video, speech, audio, 3D, and structured data across different modalities, achieving extensive success in applications such as robotics, healthcare, autonomous driving, and multimodal generation. However, MCoT still presents distinct challenges and opportunities that require further focus to ensure consistent thriving in this field, where, unfortunately, an up-to-date review of this domain is lacking. To bridge this gap, we present the first systematic survey of MCoT reasoning, elucidating the relevant foundational concepts and definitions. We offer a comprehensive taxonomy and an in-depth analysis of current methodologies from diverse perspectives across various application scenarios. Furthermore, we provide insights into existing challenges and future research directions, aiming to foster innovation toward multimodal AGI.

Summary

AI-Generated Summary

PDF342March 18, 2025