Pensare con le immagini per il ragionamento multimodale: Fondamenti, Metodi e Frontiere Future
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
June 30, 2025
Autori: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung
cs.AI
Abstract
I recenti progressi nel ragionamento multimodale sono stati significativamente avanzati dal paradigma del Chain-of-Thought (CoT) testuale, in cui i modelli conducono il ragionamento all'interno del linguaggio. Questo approccio centrato sul testo, tuttavia, tratta la visione come un contesto statico e iniziale, creando un "divario semantico" fondamentale tra i dati percettivi ricchi e il pensiero simbolico discreto. La cognizione umana spesso trascende il linguaggio, utilizzando la visione come una tavoletta mentale dinamica. Una simile evoluzione si sta ora verificando nell'IA, segnando un cambiamento di paradigma fondamentale da modelli che semplicemente pensano alle immagini a modelli che possono veramente pensare con le immagini. Questo paradigma emergente è caratterizzato da modelli che sfruttano le informazioni visive come passaggi intermedi nel loro processo di pensiero, trasformando la visione da un input passivo in uno spazio cognitivo dinamico e manipolabile. In questa rassegna, tracciamo questa evoluzione dell'intelligenza lungo una traiettoria di crescente autonomia cognitiva, che si svolge attraverso tre fasi chiave: dall'esplorazione di strumenti esterni, attraverso la manipolazione programmatica, fino all'immaginazione intrinseca. Per strutturare questo campo in rapida evoluzione, la nostra rassegna offre quattro contributi chiave. (1) Stabiliamo i principi fondamentali del paradigma del pensare con le immagini e il suo framework a tre fasi. (2) Forniamo una revisione completa dei metodi principali che caratterizzano ciascuna fase di questa roadmap. (3) Analizziamo il panorama critico dei benchmark di valutazione e delle applicazioni trasformative. (4) Identifichiamo sfide significative e delineiamo promettenti direzioni future. Fornendo questa panoramica strutturata, miriamo a offrire una roadmap chiara per la ricerca futura verso un'IA multimodale più potente e allineata con l'uomo.
English
Recent progress in multimodal reasoning has been significantly advanced by
textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning
within language. This text-centric approach, however, treats vision as a
static, initial context, creating a fundamental "semantic gap" between rich
perceptual data and discrete symbolic thought. Human cognition often transcends
language, utilizing vision as a dynamic mental sketchpad. A similar evolution
is now unfolding in AI, marking a fundamental paradigm shift from models that
merely think about images to those that can truly think with images. This
emerging paradigm is characterized by models leveraging visual information as
intermediate steps in their thought process, transforming vision from a passive
input into a dynamic, manipulable cognitive workspace. In this survey, we chart
this evolution of intelligence along a trajectory of increasing cognitive
autonomy, which unfolds across three key stages: from external tool
exploration, through programmatic manipulation, to intrinsic imagination. To
structure this rapidly evolving field, our survey makes four key contributions.
(1) We establish the foundational principles of the think with image paradigm
and its three-stage framework. (2) We provide a comprehensive review of the
core methods that characterize each stage of this roadmap. (3) We analyze the
critical landscape of evaluation benchmarks and transformative applications.
(4) We identify significant challenges and outline promising future directions.
By providing this structured overview, we aim to offer a clear roadmap for
future research towards more powerful and human-aligned multimodal AI.