La comprensione informa la generazione nei modelli multimodali unificati? Dall'analisi al percorso futuro
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
Autori: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
Abstract
Negli ultimi anni si è assistuto a progressi significativi nei Modelli Multimodali Unificati, ma una domanda fondamentale rimane: la comprensione informa veramente la generazione? Per indagare questo aspetto, introduciamo UniSandbox, un framework di valutazione disaccoppiato abbinato a dataset sintetici e controllati per evitare la fuga di dati e consentire un'analisi dettagliata. I nostri risultati rivelano un divario significativo tra comprensione e generazione, che si riflette principalmente in due dimensioni chiave: la generazione di ragionamenti e il trasferimento di conoscenza. Nello specifico, per i compiti di generazione di ragionamenti, osserviamo che una Catena di Pensiero (CoT) esplicita nel modulo di comprensione colma efficacemente il divario, e dimostriamo ulteriormente che un approccio di auto-addestramento può internalizzare con successo questa abilità, abilitando un ragionamento implicito durante la generazione. Inoltre, per i compiti di trasferimento di conoscenza, scopriamo che la CoT assiste il processo generativo aiutando a recuperare le conoscenze appena apprese, e troviamo anche che le architetture basate su query mostrano intrinsecamente proprietà latenti simili alla CoT che influenzano questo trasferimento. UniSandbox fornisce spunti preliminari per progettare future architetture unificate e strategie di addestramento che colmino veramente il divario tra comprensione e generazione. Codice e dati sono disponibili all'indirizzo https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox