ChatPaper.aiChatPaper

CINEMA: MLLM 기반 지도를 통한 일관된 다중 주제 비디오 생성

CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

March 13, 2025
저자: Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

초록

딥 생성 모델, 특히 디퓨전 모델의 등장으로 비디오 생성 분야는 눈부신 발전을 이루었습니다. 기존 방법들은 텍스트 프롬프트나 단일 이미지에서 고품질 비디오를 생성하는 데 뛰어난 성과를 보여주었지만, 개인화된 다중 주체 비디오 생성은 여전히 크게 탐구되지 않은 과제로 남아 있습니다. 이 작업은 각각 별도의 참조 이미지로 정의된 여러 개의 독립적인 주체를 포함하면서도 시간적 및 공간적 일관성을 유지하는 비디오를 합성하는 것을 포함합니다. 현재의 접근 방식은 주로 주체 이미지를 텍스트 프롬프트의 키워드에 매핑하는 데 의존하고 있어 모호성을 초래하고 주체 간 관계를 효과적으로 모델링하는 데 한계가 있습니다. 본 논문에서는 멀티모달 대형 언어 모델(MLLM)을 활용하여 일관된 다중 주체 비디오 생성을 위한 새로운 프레임워크인 CINEMA를 제안합니다. 우리의 접근 방식은 주체 이미지와 텍스트 엔티티 간의 명시적인 대응 관계를 필요로 하지 않아 모호성을 완화하고 주석 작업을 줄입니다. MLLM을 활용하여 주체 간 관계를 해석함으로써, 우리의 방법은 확장성을 촉진하여 대규모 및 다양한 데이터셋을 훈련에 사용할 수 있게 합니다. 또한, 우리의 프레임워크는 다양한 수의 주체에 따라 조건화될 수 있어 개인화된 콘텐츠 생성에 더 큰 유연성을 제공합니다. 광범위한 평가를 통해, 우리의 접근 방식이 주체 일관성과 전반적인 비디오 일관성을 크게 개선함을 입증하며, 스토리텔링, 인터랙티브 미디어, 개인화된 비디오 생성과 같은 고급 응용 분야로의 길을 열어줍니다.
English
Video generation has witnessed remarkable progress with the advent of deep generative models, particularly diffusion models. While existing methods excel in generating high-quality videos from text prompts or single images, personalized multi-subject video generation remains a largely unexplored challenge. This task involves synthesizing videos that incorporate multiple distinct subjects, each defined by separate reference images, while ensuring temporal and spatial consistency. Current approaches primarily rely on mapping subject images to keywords in text prompts, which introduces ambiguity and limits their ability to model subject relationships effectively. In this paper, we propose CINEMA, a novel framework for coherent multi-subject video generation by leveraging Multimodal Large Language Model (MLLM). Our approach eliminates the need for explicit correspondences between subject images and text entities, mitigating ambiguity and reducing annotation effort. By leveraging MLLM to interpret subject relationships, our method facilitates scalability, enabling the use of large and diverse datasets for training. Furthermore, our framework can be conditioned on varying numbers of subjects, offering greater flexibility in personalized content creation. Through extensive evaluations, we demonstrate that our approach significantly improves subject consistency, and overall video coherence, paving the way for advanced applications in storytelling, interactive media, and personalized video generation.
PDF112March 14, 2025