Perception, Raisonnement, Pensée et Planification : Une Étude sur les Grands Modèles de Raisonnement Multimodal

Résumé

Le raisonnement est au cœur de l'intelligence, façonnant la capacité à prendre des décisions, tirer des conclusions et généraliser à travers différents domaines. En intelligence artificielle, alors que les systèmes opèrent de plus en plus dans des environnements ouverts, incertains et multimodaux, le raisonnement devient essentiel pour permettre des comportements robustes et adaptatifs. Les modèles de raisonnement multimodal à grande échelle (LMRMs) ont émergé comme un paradigme prometteur, intégrant des modalités telles que le texte, les images, l'audio et la vidéo pour soutenir des capacités de raisonnement complexes, visant à atteindre une perception globale, une compréhension précise et un raisonnement approfondi. À mesure que la recherche progresse, le raisonnement multimodal a rapidement évolué, passant de pipelines modulaires et pilotés par la perception à des frameworks unifiés et centrés sur le langage, offrant une compréhension intermodale plus cohérente. Bien que le réglage par instruction et l'apprentissage par renforcement aient amélioré le raisonnement des modèles, des défis importants subsistent en matière de généralisation omni-modale, de profondeur de raisonnement et de comportement agentique. Pour aborder ces problèmes, nous présentons une étude approfondie et structurée de la recherche sur le raisonnement multimodal, organisée autour d'une feuille de route développementale en quatre étapes qui reflète l'évolution des philosophies de conception et des capacités émergentes du domaine. Tout d'abord, nous passons en revue les premières approches basées sur des modules spécifiques à des tâches, où le raisonnement était implicitement intégré à travers les étapes de représentation, d'alignement et de fusion. Ensuite, nous examinons les approches récentes qui unifient le raisonnement dans des LLMs multimodaux, avec des avancées telles que la Chaîne de Pensée Multimodale (MCoT) et l'apprentissage par renforcement multimodal, permettant des chaînes de raisonnement plus riches et structurées. Enfin, en nous appuyant sur des insights empiriques provenant de benchmarks exigeants et de cas expérimentaux comme OpenAI O3 et O4-mini, nous discutons de la direction conceptuelle des modèles natifs de raisonnement multimodal à grande échelle (N-LMRMs), qui visent à soutenir un raisonnement et une planification évolutifs, agentiques et adaptatifs dans des environnements complexes et réels.

English

Reasoning lies at the heart of intelligence, shaping the ability to make decisions, draw conclusions, and generalize across domains. In artificial intelligence, as systems increasingly operate in open, uncertain, and multimodal environments, reasoning becomes essential for enabling robust and adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a promising paradigm, integrating modalities such as text, images, audio, and video to support complex reasoning capabilities and aiming to achieve comprehensive perception, precise understanding, and deep reasoning. As research advances, multimodal reasoning has rapidly evolved from modular, perception-driven pipelines to unified, language-centric frameworks that offer more coherent cross-modal understanding. While instruction tuning and reinforcement learning have improved model reasoning, significant challenges remain in omni-modal generalization, reasoning depth, and agentic behavior. To address these issues, we present a comprehensive and structured survey of multimodal reasoning research, organized around a four-stage developmental roadmap that reflects the field's shifting design philosophies and emerging capabilities. First, we review early efforts based on task-specific modules, where reasoning was implicitly embedded across stages of representation, alignment, and fusion. Next, we examine recent approaches that unify reasoning into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT) and multimodal reinforcement learning enabling richer and more structured reasoning chains. Finally, drawing on empirical insights from challenging benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the conceptual direction of native large multimodal reasoning models (N-LMRMs), which aim to support scalable, agentic, and adaptive reasoning and planning in complex, real-world environments.

Perception, Raisonnement, Pensée et Planification : Une Étude sur les Grands Modèles de Raisonnement Multimodal

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Résumé

Support