ChatPaper.aiChatPaper

CINEMA: Generación coherente de videos multi-sujeto mediante guía basada en MLLM

CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

March 13, 2025
Autores: Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

Resumen

La generación de videos ha experimentado un progreso notable con el surgimiento de modelos generativos profundos, particularmente los modelos de difusión. Si bien los métodos existentes sobresalen en la generación de videos de alta calidad a partir de indicaciones de texto o imágenes individuales, la generación de videos personalizados con múltiples sujetos sigue siendo un desafío en gran medida inexplorado. Esta tarea implica sintetizar videos que incorporen múltiples sujetos distintos, cada uno definido por imágenes de referencia separadas, mientras se garantiza la consistencia temporal y espacial. Los enfoques actuales se basan principalmente en mapear imágenes de sujetos a palabras clave en indicaciones de texto, lo que introduce ambigüedad y limita su capacidad para modelar las relaciones entre sujetos de manera efectiva. En este artículo, proponemos CINEMA, un marco novedoso para la generación coherente de videos con múltiples sujetos mediante el aprovechamiento de Modelos de Lenguaje Multimodal de Gran Escala (MLLM). Nuestro enfoque elimina la necesidad de correspondencias explícitas entre imágenes de sujetos y entidades de texto, mitigando la ambigüedad y reduciendo el esfuerzo de anotación. Al aprovechar MLLM para interpretar las relaciones entre sujetos, nuestro método facilita la escalabilidad, permitiendo el uso de conjuntos de datos grandes y diversos para el entrenamiento. Además, nuestro marco puede condicionarse en función de un número variable de sujetos, ofreciendo una mayor flexibilidad en la creación de contenido personalizado. A través de evaluaciones exhaustivas, demostramos que nuestro enfoque mejora significativamente la consistencia de los sujetos y la coherencia general del video, allanando el camino para aplicaciones avanzadas en narrativa, medios interactivos y generación de videos personalizados.
English
Video generation has witnessed remarkable progress with the advent of deep generative models, particularly diffusion models. While existing methods excel in generating high-quality videos from text prompts or single images, personalized multi-subject video generation remains a largely unexplored challenge. This task involves synthesizing videos that incorporate multiple distinct subjects, each defined by separate reference images, while ensuring temporal and spatial consistency. Current approaches primarily rely on mapping subject images to keywords in text prompts, which introduces ambiguity and limits their ability to model subject relationships effectively. In this paper, we propose CINEMA, a novel framework for coherent multi-subject video generation by leveraging Multimodal Large Language Model (MLLM). Our approach eliminates the need for explicit correspondences between subject images and text entities, mitigating ambiguity and reducing annotation effort. By leveraging MLLM to interpret subject relationships, our method facilitates scalability, enabling the use of large and diverse datasets for training. Furthermore, our framework can be conditioned on varying numbers of subjects, offering greater flexibility in personalized content creation. Through extensive evaluations, we demonstrate that our approach significantly improves subject consistency, and overall video coherence, paving the way for advanced applications in storytelling, interactive media, and personalized video generation.

Summary

AI-Generated Summary

PDF112March 14, 2025