Perception, Raisonnement, Pensée et Planification : Une Étude sur les Grands Modèles de Raisonnement Multimodal
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
Auteurs: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
Résumé
Le raisonnement est au cœur de l'intelligence, façonnant la capacité à prendre des décisions, tirer des conclusions et généraliser à travers différents domaines. En intelligence artificielle, alors que les systèmes opèrent de plus en plus dans des environnements ouverts, incertains et multimodaux, le raisonnement devient essentiel pour permettre des comportements robustes et adaptatifs. Les modèles de raisonnement multimodal à grande échelle (LMRMs) ont émergé comme un paradigme prometteur, intégrant des modalités telles que le texte, les images, l'audio et la vidéo pour soutenir des capacités de raisonnement complexes, visant à atteindre une perception globale, une compréhension précise et un raisonnement approfondi. À mesure que la recherche progresse, le raisonnement multimodal a rapidement évolué, passant de pipelines modulaires et pilotés par la perception à des frameworks unifiés et centrés sur le langage, offrant une compréhension intermodale plus cohérente. Bien que le réglage par instruction et l'apprentissage par renforcement aient amélioré le raisonnement des modèles, des défis importants subsistent en matière de généralisation omni-modale, de profondeur de raisonnement et de comportement agentique. Pour aborder ces problèmes, nous présentons une étude approfondie et structurée de la recherche sur le raisonnement multimodal, organisée autour d'une feuille de route développementale en quatre étapes qui reflète l'évolution des philosophies de conception et des capacités émergentes du domaine. Tout d'abord, nous passons en revue les premières approches basées sur des modules spécifiques à des tâches, où le raisonnement était implicitement intégré à travers les étapes de représentation, d'alignement et de fusion. Ensuite, nous examinons les approches récentes qui unifient le raisonnement dans des LLMs multimodaux, avec des avancées telles que la Chaîne de Pensée Multimodale (MCoT) et l'apprentissage par renforcement multimodal, permettant des chaînes de raisonnement plus riches et structurées. Enfin, en nous appuyant sur des insights empiriques provenant de benchmarks exigeants et de cas expérimentaux comme OpenAI O3 et O4-mini, nous discutons de la direction conceptuelle des modèles natifs de raisonnement multimodal à grande échelle (N-LMRMs), qui visent à soutenir un raisonnement et une planification évolutifs, agentiques et adaptatifs dans des environnements complexes et réels.
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.Summary
AI-Generated Summary