ChatPaper.aiChatPaper

A Compreensão Informa a Geração em Modelos Multimodais Unificados? Da Análise ao Caminho a Seguir

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

November 25, 2025
Autores: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI

Resumo

Os últimos anos testemunharam progressos significativos nos Modelos Multimodais Unificados, mas uma questão fundamental permanece: A compreensão informa verdadeiramente a geração? Para investigar isso, introduzimos o UniSandbox, uma estrutura de avaliação desacoplada emparelhada com conjuntos de dados sintéticos e controlados para evitar vazamento de dados e permitir uma análise detalhada. Nossas descobertas revelam uma lacuna significativa entre compreensão e geração, que se reflete principalmente em duas dimensões-chave: geração de raciocínio e transferência de conhecimento. Especificamente, para tarefas de geração de raciocínio, observamos que uma Cadeia de Pensamento (CoT) explícita no módulo de compreensão efetivamente preenche a lacuna, e demonstramos ainda que uma abordagem de auto-treinamento pode internalizar com sucesso essa capacidade, permitindo o raciocínio implícito durante a geração. Além disso, para tarefas de transferência de conhecimento, descobrimos que a CoT auxilia o processo generativo, ajudando a recuperar conhecimentos recém-aprendidos, e também descobrimos que arquiteturas baseadas em consultas exibem inerentemente propriedades latentes semelhantes à CoT que afetam essa transferência. O UniSandbox fornece insights preliminares para projetar futuras arquiteturas unificadas e estratégias de treinamento que realmente preencham a lacuna entre compreensão e geração. O código e os dados estão disponíveis em https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox
PDF332March 24, 2026