Информирует ли понимание генерацию в унифицированных мультимодальных моделях? От анализа к пути вперед
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
Авторы: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
Аннотация
В последние годы наблюдается значительный прогресс в области унифицированных мультимодальных моделей, однако фундаментальный вопрос остается открытым: действительно ли понимание способствует генерации? Для исследования этой проблемы мы представляем UniSandbox — развязанную фреймворк-оценку, сочетающуюся с контролируемыми синтетическими наборами данных для предотвращения утечки данных и обеспечения детального анализа. Наши результаты выявляют значительный разрыв между пониманием и генерацией, который проявляется в двух ключевых аспектах: генерации на основе рассуждений и передаче знаний. В частности, для задач генерации рассуждений мы наблюдаем, что явная цепочка мыслей (Chain-of-Thought, CoT) в модуле понимания эффективно устраняет этот разрыв, и дополнительно демонстрируем, что метод самообучения может успешно интериоризировать эту способность, обеспечивая неявные рассуждения в процессе генерации. Кроме того, для задач передачи знаний мы обнаруживаем, что CoT assists процессу генерации, помогая извлекать недавно усвоенные знания, а также выявляем, что архитектуры на основе запросов изначально обладают латентными свойствами, подобными CoT, которые влияют на эту передачу. UniSandbox предоставляет предварительные инсайты для проектирования будущих унифицированных архитектур и стратегий обучения, действительно преодолевающих разрыв между пониманием и генерацией. Код и данные доступны по адресу https://github.com/PKU-YuanGroup/UniSandBox.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox