Mostra, non raccontare: Trasformare il ragionamento latente in generazione di immagini

Abstract

La generazione testo-immagine (T2I) ha compiuto progressi notevoli, tuttavia i metodi esistenti spesso mancano della capacità di ragionare e perfezionare dinamicamente durante la generazione – un tratto distintivo della creatività umana. I paradigmi attuali potenziati dal ragionamento si basano prevalentemente su processi di pensiero espliciti, in cui il ragionamento intermedio viene decodificato in testo discreto a passi fissi con frequenti operazioni di decodifica e ricodifica dell'immagine, causando inefficienze, perdita di informazioni e disallineamenti cognitivi. Per colmare questa lacuna, introduciamo LatentMorph, un nuovo framework che integra perfettamente il ragionamento latente implicito nel processo di generazione T2I. Il cuore di LatentMorph introduce quattro componenti leggere: (i) un condensatore per riassumere gli stati di generazione intermedi in una memoria visiva compatta, (ii) un traduttore per convertire i pensieri latenti in una guida azionabile, (iii) un modellatore per orientare dinamicamente le previsioni dei token immagine successivi, e (iv) un invocatore addestrato con RL per determinare in modo adattivo quando attivare il ragionamento. Eseguendo il ragionamento interamente in spazi latenti continui, LatentMorph evita i colli di bottiglia del ragionamento esplicito e consente un auto-perfezionamento più adattivo. Esperimenti estensivi dimostrano che LatentMorph (I) potenzia il modello base Janus-Pro del 16% su GenEval e del 25% su T2I-CompBench; (II) supera i paradigmi espliciti (ad es. TwiG) del 15% e dell'11% su compiti di ragionamento astratto come WISE e IPV-Txt, (III) riducendo al contempo il tempo di inferenza del 44% e il consumo di token del 51%; e (IV) mostra un allineamento cognitivo del 71% con l'intuizione umana sull'invocazione del ragionamento.

English

Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.

Mostra, non raccontare: Trasformare il ragionamento latente in generazione di immagini

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Abstract

Support