Penser en générant : un entrelacement du raisonnement textuel tout au long de la génération visuelle
Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
November 20, 2025
papers.authors: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng
cs.AI
papers.abstract
Les progrès récents en génération visuelle explorent de plus en plus l'intégration de capacités de raisonnement. Ces approches incorporent un raisonnement textuel, c'est-à-dire une phase de réflexion, soit avant (comme pré-planification) soit après (comme post-rafinement) le processus de génération, mais elles manquent d'interaction multimodale en temps réel pendant la génération elle-même. Dans cette étude préliminaire, nous présentons Thinking-while-Generating (TwiG), le premier cadre entrelacé permettant une co-évolution du raisonnement textuel tout au long du processus de génération visuelle. Au fur et à mesure que le contenu visuel est généré progressivement, le raisonnement textuel s'entrelace pour à la fois guider les régions locales à venir et réfléchir sur celles précédemment synthétisées. Cette interaction dynamique produit des résultats visuels plus conscients du contexte et sémantiquement riches. Pour révéler le potentiel de ce cadre, nous étudions trois stratégies candidates : l'invocation zero-shot, le réglage fin supervisé (SFT) sur notre jeu de données TwiG-50K constitué manuellement, et l'apprentissage par renforcement (RL) via une stratégie personnalisée TwiG-GRPO, chacune offrant des perspectives uniques sur la dynamique du raisonnement entrelacé. Nous espérons que ce travail inspirera des recherches plus poussées sur l'entrelacement du raisonnement textuel pour une génération visuelle améliorée. Le code sera publié à l'adresse : https://github.com/ZiyuGuo99/Thinking-while-Generating.
English
Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.