Pensar con Imágenes Generadas
Thinking with Generated Images
May 28, 2025
Autores: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Resumen
Presentamos Pensar con Imágenes Generadas, un paradigma novedoso que transforma fundamentalmente cómo los modelos multimodales grandes (LMMs) interactúan con el razonamiento visual, permitiéndoles pensar de manera nativa a través de las modalidades de texto y visión mediante la generación espontánea de pasos visuales intermedios de pensamiento. Actualmente, el razonamiento visual con LMMs se limita a procesar imágenes fijas proporcionadas por el usuario o razonar únicamente a través de cadenas de pensamiento (CoT) basadas en texto. Pensar con Imágenes Generadas desbloquea una nueva dimensión de capacidad cognitiva en la que los modelos pueden construir activamente pensamientos visuales intermedios, criticar sus propias hipótesis visuales y refinarlas como componentes integrales de su proceso de razonamiento. Demostramos la efectividad de nuestro enfoque a través de dos mecanismos complementarios: (1) generación visual con subobjetivos visuales intermedios, donde los modelos descomponen tareas visuales complejas en componentes manejables que se generan e integran progresivamente, y (2) generación visual con autocrítica, donde los modelos generan una hipótesis visual inicial, analizan sus deficiencias mediante razonamiento textual y producen resultados refinados basados en sus propias críticas. Nuestros experimentos en benchmarks de generación visual muestran mejoras sustanciales sobre enfoques basales, con nuestros modelos logrando hasta un 50% (de 38% a 57%) de mejora relativa en el manejo de escenarios complejos con múltiples objetos. Desde bioquímicos explorando estructuras proteicas novedosas y arquitectos iterando en diseños espaciales, hasta analistas forenses reconstruyendo escenas del crimen y jugadores de baloncesto visualizando jugadas estratégicas, nuestro enfoque permite a los modelos de IA participar en el tipo de imaginación visual y refinamiento iterativo que caracteriza el pensamiento creativo, analítico y estratégico humano. Publicamos nuestra suite de código abierto en https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.Summary
AI-Generated Summary