Penser avec les images pour un raisonnement multimodal : Fondements, méthodes et perspectives futures

Résumé

Les progrès récents en raisonnement multimodal ont été considérablement stimulés par la Chaîne de Pensée (CoT) textuelle, un paradigme où les modèles effectuent un raisonnement au sein du langage. Cette approche centrée sur le texte traite cependant la vision comme un contexte initial statique, créant un "fossé sémantique" fondamental entre les données perceptives riches et la pensée symbolique discrète. La cognition humaine transcende souvent le langage, utilisant la vision comme un tableau mental dynamique. Une évolution similaire se déroule actuellement en IA, marquant un changement de paradigme fondamental : des modèles qui pensent simplement à propos des images à ceux qui peuvent véritablement penser avec les images. Ce paradigme émergent se caractérise par des modèles exploitant l'information visuelle comme étapes intermédiaires dans leur processus de pensée, transformant la vision d'une entrée passive en un espace cognitif dynamique et manipulable. Dans cette étude, nous retraçons cette évolution de l'intelligence le long d'une trajectoire d'autonomie cognitive croissante, qui se déploie en trois étapes clés : de l'exploration d'outils externes, à la manipulation programmatique, jusqu'à l'imagination intrinsèque. Pour structurer ce domaine en évolution rapide, notre étude apporte quatre contributions majeures. (1) Nous établissons les principes fondamentaux du paradigme "penser avec l'image" et son cadre en trois étapes. (2) Nous proposons une revue exhaustive des méthodes centrales qui caractérisent chaque étape de cette feuille de route. (3) Nous analysons le paysage critique des benchmarks d'évaluation et des applications transformatives. (4) Nous identifions les défis significatifs et esquissons les directions futures prometteuses. En fournissant cette vue d'ensemble structurée, nous visons à offrir une feuille de route claire pour des recherches futures vers une IA multimodal plus puissante et alignée sur l'humain.

English

Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.

Penser avec les images pour un raisonnement multimodal : Fondements, méthodes et perspectives futures

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Résumé

Support