ChatPaper.aiChatPaper

Mostrar, No Contar: Transformando el Razonamiento Latente en Generación de Imágenes

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

February 2, 2026
Autores: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI

Resumen

La generación de texto a imagen (T2I) ha logrado un progreso notable, sin embargo, los métodos existentes a menudo carecen de la capacidad de razonar y refinar dinámicamente durante la generación, una característica distintiva de la creatividad humana. Los paradigmas actuales aumentados con razonamiento se basan principalmente en procesos de pensamiento explícitos, donde el razonamiento intermedio se decodifica en texto discreto en pasos fijos con frecuente decodificación y recodificación de imágenes, lo que genera ineficiencias, pérdida de información y desajustes cognitivos. Para cerrar esta brecha, presentamos LatentMorph, un marco novedoso que integra perfectamente el razonamiento latente implícito en el proceso de generación T2I. En su esencia, LatentMorph introduce cuatro componentes ligeros: (i) un condensador para resumir los estados intermedios de generación en una memoria visual compacta, (ii) un traductor para convertir pensamientos latentes en guías accionables, (iii) un modelador para dirigir dinámicamente las siguientes predicciones de tokens de imagen, y (iv) un invocador entrenado con RL para determinar adaptativamente cuándo invocar el razonamiento. Al realizar el razonamiento completamente en espacios latentes continuos, LatentMorph evita los cuellos de botella del razonamiento explícito y permite una autorrefinación más adaptativa. Experimentos exhaustivos demuestran que LatentMorph (I) mejora el modelo base Janus-Pro en un 16% en GenEval y un 25% en T2I-CompBench; (II) supera a los paradigmas explícitos (por ejemplo, TwiG) en un 15% y 11% en tareas de razonamiento abstracto como WISE e IPV-Txt, (III) mientras reduce el tiempo de inferencia en un 44% y el consumo de tokens en un 51%; y (IV) exhibe un 71% de alineación cognitiva con la intuición humana sobre la invocación del razonamiento.
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.
PDF102February 7, 2026