Размышление в процессе генерации: Переплетение текстового рассуждения с визуальным созданием
Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
November 20, 2025
Авторы: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng
cs.AI
Аннотация
Последние достижения в области визуальной генерации все активнее исследуют интеграцию возможностей логического вывода. Существующие подходы включают текстовое рассуждение (т.н. "размышление") либо до (как предварительное планирование), либо после (как последующее уточнение) процесса генерации, однако им не хватает интерактивного мультимодального взаимодействия в реальном времени в ходе самой генерации. В данном предварительном исследовании мы представляем Thinking-while-Generating (TwiG) — первую чередующуюся структуру, которая позволяет совместно развивать текстовые рассуждения на протяжении всего процесса визуальной генерации. По мере постепенного создания визуального контента текстовые рассуждения встраиваются в процесс, чтобы направлять формирование последующих локальных областей и анализировать уже синтезированные. Такое динамическое взаимодействие позволяет получать более контекстно-осознанные и семантически насыщенные визуальные результаты. Для раскрытия потенциала данного подхода мы исследуем три стратегии: zero-shot prompting, контролируемое тонкое обучение (SFT) на нашем специально созданном наборе данных TwiG-50K и обучение с подкреплением (RL) с помощью кастомизированной стратегии TwiG-GRPO, каждая из которых дает уникальное представление о динамике чередующихся рассуждений. Мы надеемся, что эта работа вдохновит на дальнейшие исследования в области интеграции текстовых рассуждений для улучшения визуальной генерации. Код будет доступен по адресу: https://github.com/ZiyuGuo99/Thinking-while-Generating.
English
Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.