ChatPaper.aiChatPaper

Соединяя ваше воображение с генерацией аудио-видео контента через единого режиссера

Bridging Your Imagination with Audio-Video Generation via a Unified Director

December 29, 2025
Авторы: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI

Аннотация

Существующие системы создания видео на основе искусственного интеллекта обычно рассматривают написание сценария и дизайн ключевых кадров как две независимые задачи: первая опирается на большие языковые модели, а вторая — на модели генерации изображений. Мы полагаем, что эти две задачи следует объединить в рамках единой системы, поскольку логическое рассуждение и образное мышление являются фундаментальными качествами кинорежиссера. В данной работе мы предлагаем UniMAGE, унифицированную режиссерскую модель, которая связывает пользовательские промпты со структурированными сценариями, позволяя неспециалистам создавать фильмы с длинным контекстом и множеством кадров, используя существующие модели генерации аудио и видео. Для этого мы применяем архитектуру Mixture-of-Transformers, которая унифицирует генерацию текста и изображений. Чтобы дополнительно улучшить логику повествования и согласованность ключевых кадров, мы вводим парадигму обучения «сначала переплетение, затем разделение». А именно, сначала мы выполняем переплетенное концептуальное обучение, которое использует переплетенные текстово-визуальные данные для углубленного понимания моделью сценария и его образной интерпретации. Затем мы проводим раздельное эксперное обучение, которое разъединяет написание сценария и генерацию ключевых кадров, обеспечивая большую гибкость и творческий подход в повествовании. Многочисленные эксперименты демонстрируют, что UniMAGE достигает передовых результатов среди моделей с открытым исходным кодом, генерируя логически связные видеосценарии и визуально согласованные изображения ключевых кадров.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.
PDF31December 31, 2025