Pensando com Imagens Geradas
Thinking with Generated Images
May 28, 2025
Autores: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Resumo
Apresentamos o "Thinking with Generated Images" (Pensando com Imagens Geradas), um novo paradigma que transforma fundamentalmente como os modelos multimodais de grande escala (LMMs) lidam com o raciocínio visual, permitindo que eles pensem nativamente entre as modalidades de texto e visão por meio da geração espontânea de etapas intermediárias de pensamento visual. Atualmente, o raciocínio visual com LMMs está limitado ao processamento de imagens fixas fornecidas pelo usuário ou ao raciocínio exclusivamente por meio de cadeias de pensamento (CoT) baseadas em texto. O "Thinking with Generated Images" desbloqueia uma nova dimensão de capacidade cognitiva, onde os modelos podem construir ativamente pensamentos visuais intermediários, criticar suas próprias hipóteses visuais e refiná-las como componentes integrais de seu processo de raciocínio. Demonstramos a eficácia de nossa abordagem por meio de dois mecanismos complementares: (1) geração de visão com subobjetivos visuais intermediários, onde os modelos decompõem tarefas visuais complexas em componentes gerenciáveis que são gerados e integrados progressivamente, e (2) geração de visão com autocrítica, onde os modelos geram uma hipótese visual inicial, analisam suas deficiências por meio de raciocínio textual e produzem saídas refinadas com base em suas próprias críticas. Nossos experimentos em benchmarks de geração visual mostram melhorias substanciais em relação às abordagens baselines, com nossos modelos alcançando uma melhoria relativa de até 50% (de 38% para 57%) no tratamento de cenários complexos com múltiplos objetos. De bioquímicos explorando novas estruturas proteicas, e arquitetos iterando sobre projetos espaciais, a analistas forenses reconstruindo cenas de crime, e jogadores de basquete visualizando jogadas estratégicas, nossa abordagem permite que modelos de IA se envolvam no tipo de imaginação visual e refinamento iterativo que caracteriza o pensamento criativo, analítico e estratégico humano. Disponibilizamos nossa suíte de código aberto em https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.