Perception, Raisonnement, Pensée et Planification : Une Étude sur les Grands Modèles de Raisonnement MultimodalPerception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
Le raisonnement est au cœur de l'intelligence, façonnant la capacité à prendre des décisions, tirer des conclusions et généraliser à travers différents domaines. En intelligence artificielle, alors que les systèmes opèrent de plus en plus dans des environnements ouverts, incertains et multimodaux, le raisonnement devient essentiel pour permettre des comportements robustes et adaptatifs. Les modèles de raisonnement multimodal à grande échelle (LMRMs) ont émergé comme un paradigme prometteur, intégrant des modalités telles que le texte, les images, l'audio et la vidéo pour soutenir des capacités de raisonnement complexes, visant à atteindre une perception globale, une compréhension précise et un raisonnement approfondi. À mesure que la recherche progresse, le raisonnement multimodal a rapidement évolué, passant de pipelines modulaires et pilotés par la perception à des frameworks unifiés et centrés sur le langage, offrant une compréhension intermodale plus cohérente. Bien que le réglage par instruction et l'apprentissage par renforcement aient amélioré le raisonnement des modèles, des défis importants subsistent en matière de généralisation omni-modale, de profondeur de raisonnement et de comportement agentique. Pour aborder ces problèmes, nous présentons une étude approfondie et structurée de la recherche sur le raisonnement multimodal, organisée autour d'une feuille de route développementale en quatre étapes qui reflète l'évolution des philosophies de conception et des capacités émergentes du domaine. Tout d'abord, nous passons en revue les premières approches basées sur des modules spécifiques à des tâches, où le raisonnement était implicitement intégré à travers les étapes de représentation, d'alignement et de fusion. Ensuite, nous examinons les approches récentes qui unifient le raisonnement dans des LLMs multimodaux, avec des avancées telles que la Chaîne de Pensée Multimodale (MCoT) et l'apprentissage par renforcement multimodal, permettant des chaînes de raisonnement plus riches et structurées. Enfin, en nous appuyant sur des insights empiriques provenant de benchmarks exigeants et de cas expérimentaux comme OpenAI O3 et O4-mini, nous discutons de la direction conceptuelle des modèles natifs de raisonnement multimodal à grande échelle (N-LMRMs), qui visent à soutenir un raisonnement et une planification évolutifs, agentiques et adaptatifs dans des environnements complexes et réels.