思考しながら生成する:視覚的生成におけるテキスト推論のインターリーブ
Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
November 20, 2025
著者: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng
cs.AI
要旨
視覚生成の最近の進歩では、推論能力の統合が活発に探求されている。既存研究では、生成プロセスの前(事前計画として)または後(事後洗練として)にテキスト推論、すなわち「思考」を組み込むものがあるが、生成過程そのものにおけるオンザフライのマルチモーダルな相互作用が欠如している。本予備的研究では、視覚生成プロセス全体を通じてテキスト推論が共進化する、初のインタリーブ型フレームワーク「生成しながら思考する(Thinking-while-Generating: TwiG)」を提案する。視覚コンテンツが段階的に生成されるにつれて、テキスト推論がインタリーブされ、今後生成される局部領域を誘導するとともに、過去に合成された領域を振り返る。この動的な相互作用により、より文脈を考慮した意味的に豊かな視覚出力が得られる。本フレームワークの可能性を探るため、ゼロショットプロンプティング、構築したTwiG-50Kデータセットを用いた教師ありファインチューニング(SFT)、およびカスタマイズしたTwiG-GRPO戦略による強化学習(RL)という3つの戦略を検討し、インタリーブ型推論の動態に関する独自の知見を提供する。本研究が、強化された視覚生成のためのテキスト推論のインタリーブに関するさらなる研究を促進することを期待する。コードは以下で公開予定:https://github.com/ZiyuGuo99/Thinking-while-Generating
English
Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.