Laat zien, niet vertellen: Het transformeren van latent redeneren naar beeldgeneratie

Samenvatting

Tekst-naar-beeldgeneratie (T2I) heeft aanzienlijke vooruitgang geboekt, maar bestaande methoden missen vaak het vermogen om dynamisch te redeneren en te verfijnen tijdens het generatieproces – een kenmerk van menselijke creativiteit. Huidige, met redeneren versterkte paradigma's zijn voornamelijk afhankelijk van expliciete denkprocessen, waarbij tussentijdse redenering op vaste stappen wordt gedecodeerd naar discrete tekst, met frequente beelddecodering en opnieuw coderen. Dit leidt tot inefficiëntie, informatieverlies en cognitieve mismatches. Om deze kloof te overbruggen, introduceren wij LatentMorph, een nieuw framework dat impliciete latente redenering naadloos integreert in het T2I-generatieproces. De kern van LatentMorph bestaat uit vier lichtgewicht componenten: (i) een condenser voor het samenvatten van tussentijdse generatietoestanden tot compact visueel geheugen, (ii) een translator voor het omzetten van latente gedachten naar uitvoerbare richtlijnen, (iii) een shaper voor het dynamisch sturen van volgende beeldtokenvoorspellingen, en (iv) een met reinforcement learning getrainde invoker voor het adaptief bepalen van het juiste moment om redenering aan te roepen. Door redenering volledig in continue latente ruimtes uit te voeren, vermijdt LatentMorph de knelpunten van expliciete redenering en maakt het adaptievere zelfverfijning mogelijk. Uitgebreide experimenten tonen aan dat LatentMorph (I) het basismodel Janus-Pro verbetert met 16% op GenEval en 25% op T2I-CompBench; (II) expliciete paradigma's (zoals TwiG) overtreft met 15% en 11% op abstracte redeneertaken zoals WISE en IPV-Txt, (III) terwijl de inferentietijd met 44% en het tokenverbruik met 51% wordt gereduceerd; en (IV) een cognitieve alignement van 71% met menselijke intuïtie vertoont betreffende het aanroepen van redenering.

English

Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.

Laat zien, niet vertellen: Het transformeren van latent redeneren naar beeldgeneratie

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Samenvatting

Support