Penser avec les images pour un raisonnement multimodal : Fondements, méthodes et perspectives futures
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Auteurs: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Résumé
Les progrès récents en raisonnement multimodal ont été considérablement stimulés par la Chaîne de Pensée (CoT) textuelle, un paradigme où les modèles effectuent un raisonnement au sein du langage. Cette approche centrée sur le texte traite cependant la vision comme un contexte initial statique, créant un "fossé sémantique" fondamental entre les données perceptives riches et la pensée symbolique discrète. La cognition humaine transcende souvent le langage, utilisant la vision comme un tableau mental dynamique. Une évolution similaire se déroule actuellement en IA, marquant un changement de paradigme fondamental : des modèles qui pensent simplement à propos des images à ceux qui peuvent véritablement penser avec les images. Ce paradigme émergent se caractérise par des modèles exploitant l'information visuelle comme étapes intermédiaires dans leur processus de pensée, transformant la vision d'une entrée passive en un espace cognitif dynamique et manipulable. Dans cette étude, nous retraçons cette évolution de l'intelligence le long d'une trajectoire d'autonomie cognitive croissante, qui se déploie en trois étapes clés : de l'exploration d'outils externes, à la manipulation programmatique, jusqu'à l'imagination intrinsèque. Pour structurer ce domaine en évolution rapide, notre étude apporte quatre contributions majeures. (1) Nous établissons les principes fondamentaux du paradigme "penser avec l'image" et son cadre en trois étapes. (2) Nous proposons une revue exhaustive des méthodes centrales qui caractérisent chaque étape de cette feuille de route. (3) Nous analysons le paysage critique des benchmarks d'évaluation et des applications transformatives. (4) Nous identifions les défis significatifs et esquissons les directions futures prometteuses. En fournissant cette vue d'ensemble structurée, nous visons à offrir une feuille de route claire pour des recherches futures vers une IA multimodal plus puissante et alignée sur l'humain.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.