ChatPaper.aiChatPaper

Ragionare-generando: intervallare il ragionamento testuale durante la generazione visiva

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

November 20, 2025
Autori: Ziyu Guo, Renrui Zhang, Hongyu Li, Manyuan Zhang, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng
cs.AI

Abstract

I recenti progressi nella generazione visiva hanno esplorato sempre più l'integrazione di capacità di ragionamento. Questi approcci incorporano il ragionamento testuale, ovvero "pensano", prima (come pre-pianificazione) o dopo (come post-affinamento) il processo di generazione, ma mancano di un'interazione multimodale in tempo reale durante la generazione stessa. In questo studio preliminare, introduciamo Thinking-while-Generating (TwiG), il primo framework interlacciato che consente la co-evoluzione del ragionamento testuale durante l'intero processo di generazione visiva. Man mano che il contenuto visivo viene generato progressivamente, il ragionamento testuale si intercala per guidare le prossime regioni locali e riflettere su quelle precedentemente sintetizzate. Questa interazione dinamica produce output visivi più consapevoli del contesto e semanticamente più ricchi. Per svelare il potenziale di questo framework, investigiamo tre strategie candidate: prompting zero-shot, fine-tuning supervisionato (SFT) sul nostro dataset curato TwiG-50K, e apprendimento per rinforzo (RL) tramite una strategia personalizzata TwiG-GRPO, ciascuna delle quali offre spunti unici sulla dinamica del ragionamento interlacciato. Speriamo che questo lavoro ispiri ulteriori ricerche sull'interlacciamento del ragionamento testuale per una generazione visiva potenziata. Il codice sarà rilasciato su: https://github.com/ZiyuGuo99/Thinking-while-Generating.
English
Recent advances in visual generation have increasingly explored the integration of reasoning capabilities. They incorporate textual reasoning, i.e., think, either before (as pre-planning) or after (as post-refinement) the generation process, yet they lack on-the-fly multimodal interaction during the generation itself. In this preliminary study, we introduce Thinking-while-Generating (TwiG), the first interleaved framework that enables co-evolving textual reasoning throughout the visual generation process. As visual content is progressively generating, textual reasoning is interleaved to both guide upcoming local regions and reflect on previously synthesized ones. This dynamic interplay produces more context-aware and semantically rich visual outputs. To unveil the potential of this framework, we investigate three candidate strategies, zero-shot prompting, supervised fine-tuning (SFT) on our curated TwiG-50K dataset, and reinforcement learning (RL) via a customized TwiG-GRPO strategy, each offering unique insights into the dynamics of interleaved reasoning. We hope this work inspires further research into interleaving textual reasoning for enhanced visual generation. Code will be released at: https://github.com/ZiyuGuo99/Thinking-while-Generating.
PDF152December 1, 2025