Denken met gegenereerde afbeeldingen

Samenvatting

We presenteren Thinking with Generated Images, een nieuw paradigma dat fundamenteel transformeert hoe grote multimodale modellen (LMMs) omgaan met visueel redeneren door hen in staat te stellen om naadloos te denken over tekst- en visuele modaliteiten via de spontane generatie van tussenliggende visuele denkstappen. Huidig visueel redeneren met LMMs is beperkt tot het verwerken van vaste, door de gebruiker aangeleverde afbeeldingen of het redeneren uitsluitend via tekstgebaseerde chain-of-thought (CoT). Thinking with Generated Images opent een nieuwe dimensie van cognitieve capaciteit waarin modellen actief tussenliggende visuele gedachten kunnen construeren, hun eigen visuele hypothesen kunnen bekritiseren en deze kunnen verfijnen als integrale componenten van hun redeneerproces. We demonstreren de effectiviteit van onze aanpak via twee complementaire mechanismen: (1) visuele generatie met tussenliggende visuele subdoelen, waarbij modellen complexe visuele taken opdelen in beheersbare componenten die progressief worden gegenereerd en geïntegreerd, en (2) visuele generatie met zelfkritiek, waarbij modellen een initiële visuele hypothese genereren, de tekortkomingen ervan analyseren via tekstueel redeneren en verfijnde uitvoer produceren op basis van hun eigen kritiek. Onze experimenten op visuele generatie benchmarks tonen aanzienlijke verbeteringen ten opzichte van baseline-benaderingen, waarbij onze modellen een relatieve verbetering van tot 50% (van 38% naar 57%) behalen in het omgaan met complexe multi-objectscenario's. Van biochemici die nieuwe eiwitstructuren verkennen, en architecten die itereren op ruimtelijke ontwerpen, tot forensisch analisten die crimescènes reconstrueren, en basketballers die strategische spelen visualiseren, onze aanpak stelt AI-modellen in staat om deel te nemen aan het soort visuele verbeelding en iteratieve verfijning dat menselijk creatief, analytisch en strategisch denken kenmerkt. We hebben onze open-source suite vrijgegeven op https://github.com/GAIR-NLP/thinking-with-generated-images.

English

We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.