보여주고 말하지 마라: 잠재적 추론을 이미지 생성으로 변환하기
Show, Don't Tell: Morphing Latent Reasoning into Image Generation
February 2, 2026
저자: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI
초록
텍스트-이미지(T2I) 생성 기술은 놀라운 발전을 이루었으나, 기존 방법들은 인간 창의성의 특징인 생성 과정에서의 동적 추론 및 정제 능력이 부족한 경우가 많습니다. 현재의 추론 강화 패러다임은 대부분 명시적 사고 과정에 의존하는데, 이는 중간 추론 결과를 고정된 단계에서 이산적 텍스트로 디코딩하고 빈번한 이미지 디코딩 및 재인코딩을 수행함으로써 비효율성, 정보 손실 및 인지적 불일치를 초래합니다. 이러한 격차를 해소하기 위해 우리는 암묵적 잠재 추론을 T2I 생성 과정에 원활하게 통합하는 새로운 프레임워크인 LatentMorph를 제안합니다. LatentMorph의 핵심에는 네 가지 경량 구성 요소가 있습니다: (i) 중간 생성 상태를 압축된 시각적 메모리로 요약하는 condenser, (ii) 잠재적 사고를 실행 가능한 지침으로 변환하는 translator, (iii) 다음 이미지 토큰 예측을 동적으로 조종하는 shaper, (iv) 추론 실행 시점을 적응적으로 결정하기 위해 강화학습으로 훈련된 invoker. LatentMorph는 추론을 연속적인 잠재 공간에서 완전히 수행함으로써 명시적 추론의 병목 현상을 피하고 더욱 적응적인 자기 정제를 가능하게 합니다. 광범위한 실험을 통해 LatentMorph가 (I) 기본 모델 Janus-Pro 대비 GenEval에서 16%, T2I-CompBench에서 25% 성능을 향상시키고, (II) WISE 및 IPV-Txt와 같은 추상적 추론 작업에서 명시적 패러다임(예: TwiG)을 각각 15%, 11% 능가하며, (III) 추론 시간을 44%, 토큰 소비량을 51% 절감하는 동시에, (IV) 추론 실행에 있어 인간의 직관과 71%의 인지적 일치도를 보여줌을 입증했습니다.
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.