ChatPaper.aiChatPaper

Informeert Begrip de Generatie in Geünificeerde Multimodale Modellen? Van Analyse naar een Pad Vooruit

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

November 25, 2025
Auteurs: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI

Samenvatting

De afgelopen jaren hebben Unified Multimodale Modellen aanzienlijke vooruitgang geboekt, maar een fundamentele vraag blijft bestaan: leidt begrip daadwerkelijk tot betere generatie? Om dit te onderzoeken, introduceren wij UniSandbox, een ontkoppeld evaluatieraamwerk gepaard met gecontroleerde, synthetische datasets om data-lekage te voorkomen en gedetailleerde analyse mogelijk te maken. Onze bevindingen onthullen een significante kloof tussen begrip en generatie, die zich voornamelijk manifesteert in twee belangrijke dimensies: redenerende generatie en kennisoverdracht. Specifiek observeren we dat voor taken met redenerende generatie, expliciete Chain-of-Thought (CoT) in de begripsmodule de kloof effectief overbrugt, en we tonen verder aan dat een zelf-trainingbenadering dit vermogen succesvol kan internaliseren, waardoor impliciete redenering tijdens generatie mogelijk wordt. Daarnaast ontdekken we voor kennisoverdrachttaken dat CoT het generatieve proces ondersteunt door te helpen bij het ophalen van nieuw aangeleerde kennis, en ontdekken we ook dat query-gebaseerde architecturen van nature latente, CoT-achtige eigenschappen vertonen die deze overdracht beïnvloeden. UniSandbox biedt eerste inzichten voor het ontwerpen van toekomstige uniforme architecturen en trainingsstrategieën die de kloof tussen begrip en generatie daadwerkelijk overbruggen. Code en data zijn beschikbaar op https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox
PDF312December 1, 2025