Denken mit generierten Bildern

papers.abstract

Wir präsentieren „Denken mit generierten Bildern“, ein neuartiges Paradigma, das grundlegend verändert, wie große multimodale Modelle (LMMs) mit visuellem Denken interagieren, indem es ihnen ermöglicht, nativ über Text- und Bildmodalitäten hinweg zu denken, indem sie spontan Zwischenschritte des visuellen Denkens generieren. Derzeit ist das visuelle Denken mit LMMs darauf beschränkt, entweder feste, vom Benutzer bereitgestellte Bilder zu verarbeiten oder ausschließlich über textbasierte Ketten von Gedanken (Chain-of-Thought, CoT) zu schlussfolgern. „Denken mit generierten Bildern“ erschließt eine neue Dimension kognitiver Fähigkeiten, in der Modelle aktiv Zwischengedanken in visueller Form konstruieren, ihre eigenen visuellen Hypothesen kritisch hinterfragen und sie als integrale Bestandteile ihres Denkprozesses verfeinern können. Wir demonstrieren die Wirksamkeit unseres Ansatzes durch zwei komplementäre Mechanismen: (1) Bildgenerierung mit Zwischenzielen, bei der Modelle komplexe visuelle Aufgaben in handhabbare Komponenten zerlegen, die schrittweise generiert und integriert werden, und (2) Bildgenerierung mit Selbstkritik, bei der Modelle eine initiale visuelle Hypothese generieren, deren Schwächen durch textbasiertes Denken analysieren und auf Basis ihrer eigenen Kritik verfeinerte Ergebnisse erzeugen. Unsere Experimente auf Benchmarks zur Bildgenerierung zeigen deutliche Verbesserungen gegenüber Baseline-Ansätzen, wobei unsere Modelle eine relative Verbesserung von bis zu 50 % (von 38 % auf 57 %) bei der Bewältigung komplexer Szenarien mit mehreren Objekten erreichen. Von Biochemikern, die neue Proteinstrukturen erforschen, über Architekten, die räumliche Entwürfe iterieren, bis hin zu Forensikern, die Tatorte rekonstruieren, und Basketballspielern, die strategische Spielzüge visualisieren – unser Ansatz ermöglicht es KI-Modellen, sich an der Art von visueller Vorstellungskraft und iterativer Verfeinerung zu beteiligen, die menschliches kreatives, analytisches und strategisches Denken kennzeichnet. Wir veröffentlichen unser Open-Source-Paket unter https://github.com/GAIR-NLP/thinking-with-generated-images.

English

We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.