Pensare con le immagini per il ragionamento multimodale: Fondamenti, Metodi e Frontiere Future

Abstract

I recenti progressi nel ragionamento multimodale sono stati significativamente avanzati dal paradigma del Chain-of-Thought (CoT) testuale, in cui i modelli conducono il ragionamento all'interno del linguaggio. Questo approccio centrato sul testo, tuttavia, tratta la visione come un contesto statico e iniziale, creando un "divario semantico" fondamentale tra i dati percettivi ricchi e il pensiero simbolico discreto. La cognizione umana spesso trascende il linguaggio, utilizzando la visione come una tavoletta mentale dinamica. Una simile evoluzione si sta ora verificando nell'IA, segnando un cambiamento di paradigma fondamentale da modelli che semplicemente pensano alle immagini a modelli che possono veramente pensare con le immagini. Questo paradigma emergente è caratterizzato da modelli che sfruttano le informazioni visive come passaggi intermedi nel loro processo di pensiero, trasformando la visione da un input passivo in uno spazio cognitivo dinamico e manipolabile. In questa rassegna, tracciamo questa evoluzione dell'intelligenza lungo una traiettoria di crescente autonomia cognitiva, che si svolge attraverso tre fasi chiave: dall'esplorazione di strumenti esterni, attraverso la manipolazione programmatica, fino all'immaginazione intrinseca. Per strutturare questo campo in rapida evoluzione, la nostra rassegna offre quattro contributi chiave. (1) Stabiliamo i principi fondamentali del paradigma del pensare con le immagini e il suo framework a tre fasi. (2) Forniamo una revisione completa dei metodi principali che caratterizzano ciascuna fase di questa roadmap. (3) Analizziamo il panorama critico dei benchmark di valutazione e delle applicazioni trasformative. (4) Identifichiamo sfide significative e delineiamo promettenti direzioni future. Fornendo questa panoramica strutturata, miriamo a offrire una roadmap chiara per la ricerca futura verso un'IA multimodale più potente e allineata con l'uomo.

English

Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.

Pensare con le immagini per il ragionamento multimodale: Fondamenti, Metodi e Frontiere Future

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Abstract

Support