Generación de Video Consciente en 3D de forma Composicional con Director LLM
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
Autores: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
Resumen
Se ha logrado un progreso significativo en la generación de texto a video mediante el uso de potentes modelos generativos y datos a gran escala de internet. Sin embargo, persisten desafíos sustanciales en controlar con precisión conceptos individuales dentro del video generado, como el movimiento y apariencia de personajes específicos y el desplazamiento de puntos de vista. En este trabajo, proponemos un nuevo paradigma que genera cada concepto en una representación 3D por separado y luego los compone con prioridades de Modelos de Lenguaje Grandes (LLM) y modelos de difusión 2D. Específicamente, dado un estímulo textual de entrada, nuestro esquema consta de tres etapas: 1) Utilizamos LLM como director para primero descomponer la consulta compleja en varios subestímulos que indican conceptos individuales dentro del video (por ejemplo, escena, objetos, movimientos), luego permitimos que LLM invoque modelos expertos pre-entrenados para obtener representaciones 3D correspondientes de los conceptos. 2) Para componer estas representaciones, solicitamos a LLM multimodal que produzca una guía aproximada sobre las escalas y coordenadas de las trayectorias de los objetos. 3) Para que los fotogramas generados se adhieran a la distribución natural de imágenes, aprovechamos además las prioridades de difusión 2D y utilizamos Muestreo de Destilación de Puntuación para refinar la composición. Experimentos extensos demuestran que nuestro método puede generar videos de alta fidelidad a partir de texto con diversos movimientos y control flexible sobre cada concepto. Página del proyecto: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.Summary
AI-Generated Summary