Denken mit generierten Bildern
Thinking with Generated Images
May 28, 2025
Autoren: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Zusammenfassung
Wir präsentieren „Denken mit generierten Bildern“, ein neuartiges Paradigma, das grundlegend verändert, wie große multimodale Modelle (LMMs) mit visuellem Denken interagieren, indem es ihnen ermöglicht, nativ über Text- und Bildmodalitäten hinweg zu denken, indem sie spontan Zwischenschritte des visuellen Denkens generieren. Derzeit ist das visuelle Denken mit LMMs darauf beschränkt, entweder feste, vom Benutzer bereitgestellte Bilder zu verarbeiten oder ausschließlich über textbasierte Ketten von Gedanken (Chain-of-Thought, CoT) zu schlussfolgern. „Denken mit generierten Bildern“ erschließt eine neue Dimension kognitiver Fähigkeiten, in der Modelle aktiv Zwischengedanken in visueller Form konstruieren, ihre eigenen visuellen Hypothesen kritisch hinterfragen und sie als integrale Bestandteile ihres Denkprozesses verfeinern können. Wir demonstrieren die Wirksamkeit unseres Ansatzes durch zwei komplementäre Mechanismen: (1) Bildgenerierung mit Zwischenzielen, bei der Modelle komplexe visuelle Aufgaben in handhabbare Komponenten zerlegen, die schrittweise generiert und integriert werden, und (2) Bildgenerierung mit Selbstkritik, bei der Modelle eine initiale visuelle Hypothese generieren, deren Schwächen durch textbasiertes Denken analysieren und auf Basis ihrer eigenen Kritik verfeinerte Ergebnisse erzeugen. Unsere Experimente auf Benchmarks zur Bildgenerierung zeigen deutliche Verbesserungen gegenüber Baseline-Ansätzen, wobei unsere Modelle eine relative Verbesserung von bis zu 50 % (von 38 % auf 57 %) bei der Bewältigung komplexer Szenarien mit mehreren Objekten erreichen. Von Biochemikern, die neue Proteinstrukturen erforschen, über Architekten, die räumliche Entwürfe iterieren, bis hin zu Forensikern, die Tatorte rekonstruieren, und Basketballspielern, die strategische Spielzüge visualisieren – unser Ansatz ermöglicht es KI-Modellen, sich an der Art von visueller Vorstellungskraft und iterativer Verfeinerung zu beteiligen, die menschliches kreatives, analytisches und strategisches Denken kennzeichnet. Wir veröffentlichen unser Open-Source-Paket unter https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.Summary
AI-Generated Summary