Denken met gegenereerde afbeeldingen
Thinking with Generated Images
May 28, 2025
Auteurs: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Samenvatting
We presenteren Thinking with Generated Images, een nieuw paradigma dat fundamenteel transformeert hoe grote multimodale modellen (LMMs) omgaan met visueel redeneren door hen in staat te stellen om naadloos te denken over tekst- en visuele modaliteiten via de spontane generatie van tussenliggende visuele denkstappen. Huidig visueel redeneren met LMMs is beperkt tot het verwerken van vaste, door de gebruiker aangeleverde afbeeldingen of het redeneren uitsluitend via tekstgebaseerde chain-of-thought (CoT). Thinking with Generated Images opent een nieuwe dimensie van cognitieve capaciteit waarin modellen actief tussenliggende visuele gedachten kunnen construeren, hun eigen visuele hypothesen kunnen bekritiseren en deze kunnen verfijnen als integrale componenten van hun redeneerproces. We demonstreren de effectiviteit van onze aanpak via twee complementaire mechanismen: (1) visuele generatie met tussenliggende visuele subdoelen, waarbij modellen complexe visuele taken opdelen in beheersbare componenten die progressief worden gegenereerd en geïntegreerd, en (2) visuele generatie met zelfkritiek, waarbij modellen een initiële visuele hypothese genereren, de tekortkomingen ervan analyseren via tekstueel redeneren en verfijnde uitvoer produceren op basis van hun eigen kritiek. Onze experimenten op visuele generatie benchmarks tonen aanzienlijke verbeteringen ten opzichte van baseline-benaderingen, waarbij onze modellen een relatieve verbetering van tot 50% (van 38% naar 57%) behalen in het omgaan met complexe multi-objectscenario's. Van biochemici die nieuwe eiwitstructuren verkennen, en architecten die itereren op ruimtelijke ontwerpen, tot forensisch analisten die crimescènes reconstrueren, en basketballers die strategische spelen visualiseren, onze aanpak stelt AI-modellen in staat om deel te nemen aan het soort visuele verbeelding en iteratieve verfijning dat menselijk creatief, analytisch en strategisch denken kenmerkt. We hebben onze open-source suite vrijgegeven op https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.