Pensare con Immagini Generate
Thinking with Generated Images
May 28, 2025
Autori: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Abstract
Presentiamo "Pensare con Immagini Generate", un paradigma innovativo che trasforma radicalmente il modo in cui i modelli multimodali di grandi dimensioni (LMM) interagiscono con il ragionamento visivo, consentendo loro di pensare in modo nativo attraverso le modalità di testo e visione mediante la generazione spontanea di passaggi intermedi di pensiero visivo. Attualmente, il ragionamento visivo con gli LMM è limitato all'elaborazione di immagini fisse fornite dall'utente o al ragionamento esclusivamente basato su catene di pensiero (CoT) testuali. "Pensare con Immagini Generate" sblocca una nuova dimensione di capacità cognitiva in cui i modelli possono costruire attivamente pensieri visivi intermedi, criticare le proprie ipotesi visive e affinarle come componenti integrali del loro processo di ragionamento. Dimostriamo l'efficacia del nostro approccio attraverso due meccanismi complementari: (1) generazione visiva con sotto-obiettivi visivi intermedi, in cui i modelli scompongono compiti visivi complessi in componenti gestibili che vengono generate e integrate progressivamente, e (2) generazione visiva con auto-critica, in cui i modelli generano un'ipotesi visiva iniziale, ne analizzano i limiti attraverso il ragionamento testuale e producono output raffinati basati sulle proprie critiche. I nostri esperimenti sui benchmark di generazione visiva mostrano miglioramenti sostanziali rispetto agli approcci di base, con i nostri modelli che raggiungono un miglioramento relativo fino al 50% (da 38% a 57%) nella gestione di scenari complessi con più oggetti. Dai biochimici che esplorano nuove strutture proteiche, agli architetti che iterano su progetti spaziali, dagli analisti forensi che ricostruiscono scene del crimine, ai giocatori di basket che immaginano strategie di gioco, il nostro approccio consente ai modelli di intelligenza artificiale di impegnarsi nel tipo di immaginazione visiva e affinamento iterativo che caratterizza il pensiero creativo, analitico e strategico umano. Rilasciamo la nostra suite open-source all'indirizzo https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.