Zeigen, nicht erklären: Die Verwandlung von latentem Denken in Bildgenerierung
Show, Don't Tell: Morphing Latent Reasoning into Image Generation
February 2, 2026
papers.authors: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI
papers.abstract
Die Text-zu-Bild-Generierung (T2I) hat bemerkenswerte Fortschritte erzielt, doch bestehenden Methoden fehlt oft die Fähigkeit, während der Generierung dynamisch zu schlussfolgern und zu verfeinern – ein Kennzeichen menschlicher Kreativität. Aktuelle, mit Reasoning angereicherte Paradigmen basieren meist auf expliziten Denkprozessen, bei denen Zwischenreasoning in festen Schritten in diskreten Text decodiert wird, was häufige Bilddecodierung und -rekodierung erfordert und zu Ineffizienz, Informationsverlust und kognitiven Diskrepanzen führt. Um diese Lücke zu schließen, stellen wir LatentMorph vor, einen neuartigen Rahmen, der implizites latentes Reasoning nahtlos in den T2I-Generierungsprozess integriert. Kern von LatentMorph sind vier leichtgewichtige Komponenten: (i) einen Kondensator zur Verdichtung von Zwischengenerierungszuständen in kompakten visuellen Speicher, (ii) einen Übersetzer zur Konvertierung latenter Gedanken in handlungsrelevante Steuerung, (iii) einen Former zur dynamischen Lenkung der nächsten Bild-Token-Vorhersagen und (iv) einen RL-trainierten Aufrufer zur adaptiven Bestimmung des Zeitpunkts für Reasoning-Aufrufe. Indem LatentMorph das Reasoning vollständig in kontinuierlichen latenten Räumen durchführt, umgeht es die Engpässe expliziten Reasonings und ermöglicht eine adaptivere Selbstverfeinerung. Umfangreiche Experimente zeigen, dass LatentMorph (I) das Basismodell Janus-Pro auf GenEval um 16 % und auf T2I-CompBench um 25 % verbessert; (II) explizite Paradigmen (z.B. TwiG) bei abstrakten Reasoning-Aufgaben wie WISE und IPV-Txt um 15 % bzw. 11 % übertrifft; (III) dabei die Inferenzzeit um 44 % und den Token-Verbrauch um 51 % reduziert; und (IV) eine 71 %ige kognitive Übereinstimmung mit der menschlichen Intuition bezüglich des Reasoning-Aufrufs aufweist.
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.