ChatPaper.aiChatPaper

Informiert das Verständnis die Generierung in vereinheitlichten multimodalen Modellen? Von der Analyse zum Weg nach vorn

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

November 25, 2025
papers.authors: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI

papers.abstract

In den letzten Jahren gab es bedeutende Fortschritte bei Vereinheitlichten Multimodalen Modellen, doch eine grundlegende Frage bleibt bestehen: Führt Verstehen tatsächlich zu besserer Generierung? Um dies zu untersuchen, führen wir UniSandbox ein, einen entkoppelten Evaluierungsrahmen, der mit kontrollierten, synthetischen Datensätzen gepaart ist, um Datenlecks zu vermeiden und eine detaillierte Analyse zu ermöglichen. Unsere Ergebnisse zeigen eine signifikante Kluft zwischen Verstehen und Generierung, die sich hauptsächlich in zwei Schlüsseldimensionen widerspiegelt: schlussfolgernde Generierung und Wissenstransfer. Insbesondere bei Aufgaben zur schlussfolgernden Generierung beobachten wir, dass explizite Chain-of-Thought (CoT) im Verstehensmodul die Lücke effektiv schließt, und wir zeigen weiter, dass ein Self-Training-Ansatz diese Fähigkeit erfolgreich internalisieren kann, um implizites Schlussfolgern während der Generierung zu ermöglichen. Zusätzlich stellen wir bei Wissenstransfer-Aufgaben fest, dass CoT den Generierungsprozess unterstützt, indem es beim Abruf neu erlernten Wissens hilft, und wir entdecken auch, dass abfragebasierte Architekturen inhärent latente, CoT-ähnliche Eigenschaften aufweisen, die diesen Transfer beeinflussen. UniSandbox liefert vorläufige Erkenntnisse für die Gestaltung zukünftiger vereinheitlichter Architekturen und Trainingsstrategien, die die Lücke zwischen Verstehen und Generierung wirklich überbrücken. Code und Daten sind verfügbar unter https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox
PDF312December 1, 2025