Denken-tijdens-Genereren: Tekstueel Redeneren Verweven door Visuele Generatie heen
Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
November 20, 2025
Auteurs: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng
cs.AI
Samenvatting
Recente vooruitgang in visuele generatie onderzoekt in toenemende mate de integratie van redeneervermogen. Bestaande methodes incorporeren tekstueel redeneren – ofwel vóór (als pre-planning) ofwel na (als post-verfijning) het generatieproces – maar missen multimodale interactie tijdens de generatie zelf. In deze voorlopige studie introduceren we Thinking-while-Generating (TwiG), het eerste gekoppelde framework dat tekstueel redeneren laat co-evolueren gedurende het visuele generatieproces. Terwijl visuele inhoud progressief wordt gegenereerd, wordt tekstueel redeneren tussengevoegd om zowel aanstaande lokale regio's te sturen als te reflecteren op eerder gesynthetiseerde delen. Deze dynamische wisselwerking leidt tot contextbewustere en semantisch rijkere visuele resultaten. Om het potentieel van dit framework te onthullen, onderzoeken we drie strategieën: zero-shot prompting, supervised fine-tuning (SFT) op onze samengestelde TwiG-50K dataset, en reinforcement learning (RL) via een aangepaste TwiG-GRPO-strategie, die elk unieke inzichten bieden in de dynamiek van gekoppeld redeneren. We hopen dat dit werk verder onderzoek inspireert naar de integratie van tekstueel redeneren voor verbeterde visuele generatie. Code wordt vrijgegeven op: https://github.com/ZiyuGuo99/Thinking-while-Generating.
English
Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.