Mostre, Não Conte: Transformando o Raciocínio Latente em Geração de Imagens

Resumo

A geração de texto para imagem (T2I) alcançou progressos notáveis, porém os métodos existentes frequentemente carecem da capacidade de raciocinar e refinar dinamicamente durante a geração – uma característica marcante da criatividade humana. Os paradigmas atuais aumentados por raciocínio dependem principalmente de processos de pensamento explícitos, nos quais o raciocínio intermediário é decodificado em texto discreto em etapas fixas, com frequente decodificação e recodificação de imagens, resultando em ineficiências, perda de informação e incompatibilidades cognitivas. Para preencher esta lacuna, introduzimos o LatentMorph, uma nova estrutura que integra perfeitamente o raciocínio latente implícito no processo de geração T2I. No seu cerne, o LatentMorph introduz quatro componentes leves: (i) um condensador para resumir estados intermediários de geração em memória visual compacta, (ii) um tradutor para converter pensamentos latentes em orientação acionável, (iii) um modelador para direcionar dinamicamente as próximas previsões de tokens de imagem, e (iv) um invocador treinado por RL para determinar adaptativamente quando invocar o raciocínio. Ao realizar o raciocínio inteiramente em espaços latentes contínuos, o LatentMorph evita os gargalos do raciocínio explícito e permite uma autorrefinação mais adaptativa. Experimentos extensivos demonstram que o LatentMorph (I) melhora o modelo base Janus-Pro em 16% no GenEval e 25% no T2I-CompBench; (II) supera paradigmas explícitos (por exemplo, TwiG) em 15% e 11% em tarefas de raciocínio abstrato como WISE e IPV-Txt, (III) enquanto reduz o tempo de inferência em 44% e o consumo de tokens em 51%; e (IV) exibe 71% de alinhamento cognitivo com a intuição humana sobre a invocação do raciocínio.

English

Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.

Mostre, Não Conte: Transformando o Raciocínio Latente em Geração de Imagens

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Resumo

Support