La compréhension informe-t-elle la génération dans les modèles multimodaux unifiés ? De l'analyse aux perspectives
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
papers.authors: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
papers.abstract
Ces dernières années ont connu des progrès significatifs dans les modèles multimodaux unifiés, mais une question fondamentale demeure : la compréhension informe-t-elle véritablement la génération ? Pour investiguer ce point, nous introduisons UniSandbox, un cadre d'évaluation découplé associé à des ensembles de données synthétiques contrôlés afin d'éviter les fuites de données et de permettre une analyse détaillée. Nos résultats révèlent un écart significatif entre la compréhension et la génération, qui se manifeste principalement dans deux dimensions clés : la génération par raisonnement et le transfert de connaissances. Plus précisément, pour les tâches de génération par raisonnement, nous observons qu'un raisonnement en chaîne (Chain-of-Thought, CoT) explicite dans le module de compréhension comble efficacement cet écart, et nous démontrons en outre qu'une approche par auto-apprentissage peut internaliser avec succès cette capacité, permettant un raisonnement implicite lors de la génération. Par ailleurs, pour les tâches de transfert de connaissances, nous constatons que le CoT assiste le processus génératif en aidant à récupérer les connaissances nouvellement acquises, et nous découvrons également que les architectures basées sur des requêtes présentent intrinsèquement des propriétés latentes similaires au CoT qui influencent ce transfert. UniSandbox offre des perspectives préliminaires pour concevoir de futures architectures unifiées et des stratégies d'entraînement qui comblent véritablement le fossé entre la compréhension et la génération. Le code et les données sont disponibles à l'adresse https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox