¿Informa la comprensión a la generación en modelos multimodales unificados? Del análisis al camino a seguir
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
Autores: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
Resumen
En los últimos años se ha observado un progreso significativo en los Modelos Multimodales Unificados, pero una pregunta fundamental sigue en el aire: ¿La comprensión realmente informa a la generación? Para investigarlo, presentamos UniSandbox, un marco de evaluación desacoplado junto con conjuntos de datos sintéticos y controlados para evitar filtraciones de datos y permitir un análisis detallado. Nuestros hallazgos revelan una brecha significativa entre comprensión y generación, que se refleja principalmente en dos dimensiones clave: generación de razonamiento y transferencia de conocimiento. Específicamente, para las tareas de generación de razonamiento, observamos que una Cadena de Pensamiento (CoT) explícita en el módulo de comprensión puentea eficazmente la brecha, y demostramos además que un enfoque de auto-entrenamiento puede internalizar con éxito esta capacidad, permitiendo un razonamiento implícito durante la generación. Adicionalmente, para las tareas de transferencia de conocimiento, encontramos que la CoT ayuda al proceso generativo al facilitar la recuperación de conocimiento recién aprendido, y también descubrimos que las arquitecturas basadas en consultas exhiben inherentemente propiedades latentes similares a la CoT que afectan esta transferencia. UniSandbox ofrece perspectivas preliminares para diseñar futuras arquitecturas unificadas y estrategias de entrenamiento que realmente salven la brecha entre comprensión y generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox