통합 디렉터를 통해 상상력을 오디오-비디오 생성과 연결하기
Bridging Your Imagination with Audio-Video Generation via a Unified Director
December 29, 2025
저자: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI
초록
기존 AI 기반 영상 생성 시스템은 일반적으로 대본 초안 작성과 키샷 설계를 두 개의 분리된 작업으로 취급합니다. 전자는 대규모 언어 모델에 의존하는 반면, 후자는 이미지 생성 모델에 의존합니다. 우리는 논리적 추론과 상상적 사고가 모두 영화 감독의 기본적인 자질이므로 이 두 작업을 단일 프레임워크 내에서 통합해야 한다고 주장합니다. 본 연구에서는 사용자 프롬프트와 구조화된 대본을 연결하는 통합 감독 모델인 UniMAGE를 제안합니다. 이를 통해 기존 오디오-비디오 생성 모델을 활용하여 비전문가도 장면 전환과 긴 맥락을 가진 영상을 제작할 수 있도록 합니다. 이를 위해 텍스트와 이미지 생성을 통합하는 Mixture-of-Transformers 아키텍처를 채택합니다. 또한 서사적 논리와 키프레임 일관성을 더욱 강화하기 위해 '먼저 인터리빙, 후에 디스탱글링' 훈련 패러다임을 도입합니다. 구체적으로, 먼저 인터리브된 텍스트-이미지 데이터를 활용하여 모델의 대본에 대한 깊은 이해와 상상적 해석 능력을 함양하는 인터리브드 개념 학습을 수행합니다. 그런 다음 대본 작성과 키프레임 생성을 분리하여 스토리텔링에 더 큰 유연성과 창의성을 부여하는 디스탱글드 전문가 학습을 수행합니다. 폭넓은 실험을 통해 UniMAGE가 오픈소스 모델 중 최첨단 성능을 달성하며, 논리적으로 일관된 비디오 대본과 시각적으로 일관성 있는 키프레임 이미지를 생성함을 입증합니다.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.