ChatPaper.aiChatPaper

Мышление с использованием сгенерированных изображений

Thinking with Generated Images

May 28, 2025
Авторы: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
cs.AI

Аннотация

Мы представляем новый подход под названием «Мышление с генерируемыми изображениями», который кардинально меняет то, как крупные мультимодальные модели (LMM) взаимодействуют с визуальным мышлением, позволяя им естественным образом мыслить на стыке текстовых и визуальных модальностей через спонтанное создание промежуточных визуальных шагов мышления. Современные методы визуального рассуждения с использованием LMM ограничены либо обработкой фиксированных изображений, предоставленных пользователем, либо рассуждениями исключительно через текстовые цепочки мыслей (CoT). Наш подход открывает новое измерение когнитивных возможностей, в рамках которого модели могут активно конструировать промежуточные визуальные мысли, критически оценивать свои визуальные гипотезы и совершенствовать их как неотъемлемые компоненты процесса рассуждения. Мы демонстрируем эффективность нашего подхода через два взаимодополняющих механизма: (1) генерацию визуальных данных с промежуточными визуальными подцелями, где модели разбивают сложные визуальные задачи на управляемые компоненты, которые генерируются и интегрируются постепенно, и (2) генерацию визуальных данных с самокритикой, где модели создают начальную визуальную гипотезу, анализируют её недостатки через текстовое рассуждение и производят уточнённые результаты на основе собственной критики. Наши эксперименты на бенчмарках генерации визуальных данных показывают значительные улучшения по сравнению с базовыми подходами, при этом наши модели достигают относительного улучшения до 50% (с 38% до 57%) в обработке сложных сценариев с множеством объектов. От биохимиков, исследующих новые структуры белков, и архитекторов, итеративно разрабатывающих пространственные проекты, до криминалистов, восстанавливающих места преступлений, и баскетболистов, визуализирующих стратегические ходы, наш подход позволяет моделям ИИ участвовать в визуальном воображении и итеративном совершенствовании, что характерно для человеческого творческого, аналитического и стратегического мышления. Мы публикуем наш открытый набор инструментов по адресу https://github.com/GAIR-NLP/thinking-with-generated-images.
English
We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.

Summary

AI-Generated Summary

PDF133May 29, 2025