Pensando com Imagens Geradas

Resumo

Apresentamos o "Thinking with Generated Images" (Pensando com Imagens Geradas), um novo paradigma que transforma fundamentalmente como os modelos multimodais de grande escala (LMMs) lidam com o raciocínio visual, permitindo que eles pensem nativamente entre as modalidades de texto e visão por meio da geração espontânea de etapas intermediárias de pensamento visual. Atualmente, o raciocínio visual com LMMs está limitado ao processamento de imagens fixas fornecidas pelo usuário ou ao raciocínio exclusivamente por meio de cadeias de pensamento (CoT) baseadas em texto. O "Thinking with Generated Images" desbloqueia uma nova dimensão de capacidade cognitiva, onde os modelos podem construir ativamente pensamentos visuais intermediários, criticar suas próprias hipóteses visuais e refiná-las como componentes integrais de seu processo de raciocínio. Demonstramos a eficácia de nossa abordagem por meio de dois mecanismos complementares: (1) geração de visão com subobjetivos visuais intermediários, onde os modelos decompõem tarefas visuais complexas em componentes gerenciáveis que são gerados e integrados progressivamente, e (2) geração de visão com autocrítica, onde os modelos geram uma hipótese visual inicial, analisam suas deficiências por meio de raciocínio textual e produzem saídas refinadas com base em suas próprias críticas. Nossos experimentos em benchmarks de geração visual mostram melhorias substanciais em relação às abordagens baselines, com nossos modelos alcançando uma melhoria relativa de até 50% (de 38% para 57%) no tratamento de cenários complexos com múltiplos objetos. De bioquímicos explorando novas estruturas proteicas, e arquitetos iterando sobre projetos espaciais, a analistas forenses reconstruindo cenas de crime, e jogadores de basquete visualizando jogadas estratégicas, nossa abordagem permite que modelos de IA se envolvam no tipo de imaginação visual e refinamento iterativo que caracteriza o pensamento criativo, analítico e estratégico humano. Disponibilizamos nossa suíte de código aberto em https://github.com/GAIR-NLP/thinking-with-generated-images.

English

We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.