Мышление с использованием сгенерированных изображений
Thinking with Generated Images
May 28, 2025
Авторы: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI
Аннотация
Мы представляем новый подход под названием «Мышление с генерируемыми изображениями», который кардинально меняет то, как крупные мультимодальные модели (LMM) взаимодействуют с визуальным мышлением, позволяя им естественным образом мыслить на стыке текстовых и визуальных модальностей через спонтанное создание промежуточных визуальных шагов мышления. Современные методы визуального рассуждения с использованием LMM ограничены либо обработкой фиксированных изображений, предоставленных пользователем, либо рассуждениями исключительно через текстовые цепочки мыслей (CoT). Наш подход открывает новое измерение когнитивных возможностей, в рамках которого модели могут активно конструировать промежуточные визуальные мысли, критически оценивать свои визуальные гипотезы и совершенствовать их как неотъемлемые компоненты процесса рассуждения. Мы демонстрируем эффективность нашего подхода через два взаимодополняющих механизма: (1) генерацию визуальных данных с промежуточными визуальными подцелями, где модели разбивают сложные визуальные задачи на управляемые компоненты, которые генерируются и интегрируются постепенно, и (2) генерацию визуальных данных с самокритикой, где модели создают начальную визуальную гипотезу, анализируют её недостатки через текстовое рассуждение и производят уточнённые результаты на основе собственной критики. Наши эксперименты на бенчмарках генерации визуальных данных показывают значительные улучшения по сравнению с базовыми подходами, при этом наши модели достигают относительного улучшения до 50% (с 38% до 57%) в обработке сложных сценариев с множеством объектов. От биохимиков, исследующих новые структуры белков, и архитекторов, итеративно разрабатывающих пространственные проекты, до криминалистов, восстанавливающих места преступлений, и баскетболистов, визуализирующих стратегические ходы, наш подход позволяет моделям ИИ участвовать в визуальном воображении и итеративном совершенствовании, что характерно для человеческого творческого, аналитического и стратегического мышления. Мы публикуем наш открытый набор инструментов по адресу https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that
fundamentally transforms how large multimodal models (LMMs) engage with visual
reasoning by enabling them to natively think across text and vision modalities
through spontaneous generation of intermediate visual thinking steps. Current
visual reasoning with LMMs is constrained to either processing fixed
user-provided images or reasoning solely through text-based chain-of-thought
(CoT). Thinking with Generated Images unlocks a new dimension of cognitive
capability where models can actively construct intermediate visual thoughts,
critique their own visual hypotheses, and refine them as integral components of
their reasoning process. We demonstrate the effectiveness of our approach
through two complementary mechanisms: (1) vision generation with intermediate
visual subgoals, where models decompose complex visual tasks into manageable
components that are generated and integrated progressively, and (2) vision
generation with self-critique, where models generate an initial visual
hypothesis, analyze its shortcomings through textual reasoning, and produce
refined outputs based on their own critiques. Our experiments on vision
generation benchmarks show substantial improvements over baseline approaches,
with our models achieving up to 50% (from 38% to 57%) relative improvement in
handling complex multi-object scenarios. From biochemists exploring novel
protein structures, and architects iterating on spatial designs, to forensic
analysts reconstructing crime scenes, and basketball players envisioning
strategic plays, our approach enables AI models to engage in the kind of visual
imagination and iterative refinement that characterizes human creative,
analytical, and strategic thinking. We release our open-source suite at
https://github.com/GAIR-NLP/thinking-with-generated-images.Summary
AI-Generated Summary