ChatPaper.aiChatPaper

Montrer, ne pas dire : Transformer le raisonnement latent en génération d'images

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

February 2, 2026
papers.authors: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI

papers.abstract

La génération texte-image (T2I) a réalisé des progrès remarquables, mais les méthodes existantes manquent souvent de la capacité à raisonner et à raffiner dynamiquement pendant la génération – une caractéristique de la créativité humaine. Les paradigmes actuels augmentés par le raisonnement reposent principalement sur des processus de pensée explicites, où le raisonnement intermédiaire est décodé en texte discret à des étapes fixes avec un décodage et un ré-encodage fréquents de l'image, entraînant des inefficacités, une perte d'information et des inadéquations cognitives. Pour combler cette lacune, nous présentons LatentMorph, un nouveau cadre qui intègre de manière transparente un raisonnement latent implicite dans le processus de génération T2I. Au cœur de LatentMorph se trouvent quatre composants légers : (i) un condenseur pour résumer les états de génération intermédiaires en une mémoire visuelle compacte, (ii) un traducteur pour convertir les pensées latentes en guidance actionnable, (iii) un façonneur pour orienter dynamiquement les prédictions des prochains tokens d'image, et (iv) un invoqueur entraîné par RL pour déterminer de manière adaptive quand invoquer le raisonnement. En effectuant le raisonnement entièrement dans des espaces latents continus, LatentMorph évite les goulots d'étranglement du raisonnement explicite et permet un auto-raffinement plus adaptatif. Des expériences approfondies démontrent que LatentMorph (I) améliore le modèle de base Janus-Pro de 16% sur GenEval et de 25% sur T2I-CompBench ; (II) surpasse les paradigmes explicites (par exemple, TwiG) de 15% et 11% sur des tâches de raisonnement abstrait comme WISE et IPV-Txt, (III) tout en réduisant le temps d'inférence de 44% et la consommation de tokens de 51% ; et (IV) présente un alignement cognitif de 71% avec l'intuition humaine sur l'invocation du raisonnement.
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.
PDF102February 7, 2026