ChatPaper.aiChatPaper

見せる、語らない:潜在的な推論を画像生成へと変容させる

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

February 2, 2026
著者: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI

要旨

テキストから画像(T2I)生成は目覚ましい進歩を遂げているが、既存手法の多くは、生成過程における動的な推論と精緻化という人間の創造性の特徴を欠いている。現在の推論拡張パラダイムは、明示的思考プロセスに依存するものが主流であり、中間推論が固定ステップで離散テキストにデコードされ、頻繁な画像デコードと再エンコードを伴うため、非効率性、情報損失、認知的不一致を引き起こす。このギャップを埋めるため、我々は暗黙的潜在推論をT2I生成プロセスにシームレスに統合する新規フレームワーク「LatentMorph」を提案する。中核となるのは、4つの軽量コンポーネントである:(i)中間生成状態をコンパクトな視覚的メモリに要約する凝縮器、(ii)潜在思考を実行的ガイダンスに変換する翻訳器、(iii)次の画像トークン予測を動的に誘導する形成器、(iv)推論発動のタイミングを適応的に決定するRL訓練型発動器である。推論を連続的潜在空間内で完全に行うことで、LatentMorphは明示的推論のボトルネックを回避し、より適応的な自己精緻化を可能にする。大規模な実験により、LatentMorphが(I)ベースモデルJanus-ProをGenEvalで16%、T2I-CompBenchで25%向上させ、(II)WISEやIPV-Txtなどの抽象的推論タスクにおいて明示的パラダイム(TwiG等)を15%、11%上回り、(III)推論時間を44%、トークン消費量を51%削減し、(IV)推論発動に関する人間の直感との認知的整合性が71%に達することを実証した。
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.
PDF102February 7, 2026