ChatPaper.aiChatPaper

Показывай, а не рассказывай: Превращение скрытых рассуждений в генерацию изображений

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

February 2, 2026
Авторы: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen
cs.AI

Аннотация

Генерация изображений по текстовому описанию (T2I) достигла значительных успехов, однако существующие методы часто лишены способности к динамическому логическому выводу и уточнению в процессе генерации — что является отличительной чертой человеческого творчества. Современные парадигмы, усиленные логическим выводом, в основном полагаются на явные мыслительные процессы, где промежуточные рассуждения декодируются в дискретный текст на фиксированных шагах с частым декодированием и повторным кодированием изображений, что приводит к неэффективности, потере информации и когнитивным рассогласованиям. Для преодоления этого разрыва мы представляем LatentMorph — новую архитектуру, которая бесшовно интегрирует неявный латентный вывод в процесс T2I-генерации. В основе LatentMorph лежат четыре легковесных компонента: (i) конденсатор для суммирования промежуточных состояний генерации в компактную визуальную память, (ii) транслятор для преобразования латентных "мыслей" в практические руководства, (iii) формирователь для динамического управления предсказанием следующих токенов изображения и (iv) вызывающий модуль, обученный с подкреплением, для адаптивного определения момента активации логического вывода. Благодаря выполнению рассуждений полностью в непрерывных латентных пространствах, LatentMorph избегает узких мест явного вывода и обеспечивает более адаптивное самоуточнение. Многочисленные эксперименты демонстрируют, что LatentMorph (I) улучшает базовую модель Janus-Pro на 16% по GenEval и на 25% по T2I-CompBench; (II) превосходит явные парадигмы (например, TwiG) на 15% и 11% в задачах абстрактного reasoning, таких как WISE и IPV-Txt, (III) при этом сокращая время вывода на 44% и потребление токенов на 51%; и (IV) демонстрирует 71% когнитивного соответствия с человеческой интуицией в отношении момента активации рассуждений.
English
Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by 16% on GenEval and 25% on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by 15% and 11% on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by 44% and token consumption by 51%; and (IV) exhibits 71% cognitive alignment with human intuition on reasoning invocation.
PDF102February 7, 2026