Pensar con Imágenes Generadas

Resumen

Presentamos Pensar con Imágenes Generadas, un paradigma novedoso que transforma fundamentalmente cómo los modelos multimodales grandes (LMMs) interactúan con el razonamiento visual, permitiéndoles pensar de manera nativa a través de las modalidades de texto y visión mediante la generación espontánea de pasos visuales intermedios de pensamiento. Actualmente, el razonamiento visual con LMMs se limita a procesar imágenes fijas proporcionadas por el usuario o razonar únicamente a través de cadenas de pensamiento (CoT) basadas en texto. Pensar con Imágenes Generadas desbloquea una nueva dimensión de capacidad cognitiva en la que los modelos pueden construir activamente pensamientos visuales intermedios, criticar sus propias hipótesis visuales y refinarlas como componentes integrales de su proceso de razonamiento. Demostramos la efectividad de nuestro enfoque a través de dos mecanismos complementarios: (1) generación visual con subobjetivos visuales intermedios, donde los modelos descomponen tareas visuales complejas en componentes manejables que se generan e integran progresivamente, y (2) generación visual con autocrítica, donde los modelos generan una hipótesis visual inicial, analizan sus deficiencias mediante razonamiento textual y producen resultados refinados basados en sus propias críticas. Nuestros experimentos en benchmarks de generación visual muestran mejoras sustanciales sobre enfoques basales, con nuestros modelos logrando hasta un 50% (de 38% a 57%) de mejora relativa en el manejo de escenarios complejos con múltiples objetos. Desde bioquímicos explorando estructuras proteicas novedosas y arquitectos iterando en diseños espaciales, hasta analistas forenses reconstruyendo escenas del crimen y jugadores de baloncesto visualizando jugadas estratégicas, nuestro enfoque permite a los modelos de IA participar en el tipo de imaginación visual y refinamiento iterativo que caracteriza el pensamiento creativo, analítico y estratégico humano. Publicamos nuestra suite de código abierto en https://github.com/GAIR-NLP/thinking-with-generated-images.

English

We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.