Penser avec des images générées
Thinking with Generated Images
May 28, 2025
Auteurs: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Résumé
Nous présentons "Thinking with Generated Images", un nouveau paradigme qui transforme fondamentalement la manière dont les grands modèles multimodaux (LMMs) abordent le raisonnement visuel en leur permettant de penser nativement à travers les modalités texte et vision grâce à la génération spontanée d'étapes intermédiaires de pensée visuelle. Actuellement, le raisonnement visuel avec les LMMs se limite soit au traitement d'images fixes fournies par l'utilisateur, soit à un raisonnement exclusivement textuel basé sur une chaîne de pensée (CoT). "Thinking with Generated Images" ouvre une nouvelle dimension de capacité cognitive où les modèles peuvent activement construire des pensées visuelles intermédiaires, critiquer leurs propres hypothèses visuelles et les affiner en tant que composantes intégrales de leur processus de raisonnement. Nous démontrons l'efficacité de notre approche à travers deux mécanismes complémentaires : (1) la génération visuelle avec des sous-objectifs visuels intermédiaires, où les modèles décomposent des tâches visuelles complexes en composants gérables qui sont générés et intégrés progressivement, et (2) la génération visuelle avec auto-critique, où les modèles génèrent une hypothèse visuelle initiale, analysent ses lacunes par un raisonnement textuel, et produisent des résultats affinés basés sur leurs propres critiques. Nos expériences sur des benchmarks de génération visuelle montrent des améliorations substantielles par rapport aux approches de base, avec nos modèles atteignant jusqu'à 50% (de 38% à 57%) d'amélioration relative dans la gestion de scénarios complexes à objets multiples. Des biochimistes explorant de nouvelles structures protéiques, aux architectes itérant sur des conceptions spatiales, en passant par les analystes médico-légaux reconstruisant des scènes de crime, et les joueurs de basket-ball envisageant des stratégies de jeu, notre approche permet aux modèles d'IA de s'engager dans le type d'imagination visuelle et d'affinement itératif qui caractérise la pensée créative, analytique et stratégique humaine. Nous mettons à disposition notre suite open-source à l'adresse suivante : https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.Summary
AI-Generated Summary