Geração de Vídeo Consciente em 3D de forma Composicional com Diretor LLM
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
Autores: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
Resumo
Significativos avanços foram alcançados na geração de texto para vídeo por meio do uso de modelos generativos poderosos e dados em larga escala da internet. No entanto, desafios substanciais ainda persistem no controle preciso de conceitos individuais dentro do vídeo gerado, como o movimento e a aparência de personagens específicos e o deslocamento de pontos de vista. Neste trabalho, propomos um novo paradigma que gera cada conceito em representação 3D separadamente e depois os compõe com priori de Grandes Modelos de Linguagem (LLM) e modelos de difusão 2D. Especificamente, dado um prompt textual de entrada, nosso esquema consiste em três etapas: 1) Utilizamos o LLM como diretor para primeiro decompor a consulta complexa em vários sub-prompts que indicam conceitos individuais dentro do vídeo (por exemplo, cena, objetos, movimentos), em seguida, permitimos que o LLM invoque modelos especialistas pré-treinados para obter representações 3D correspondentes aos conceitos. 2) Para compor essas representações, solicitamos que o LLM multimodal produza orientações aproximadas sobre as escalas e coordenadas de trajetórias para os objetos. 3) Para fazer com que os frames gerados adiram à distribuição natural de imagens, utilizamos ainda priori de difusão 2D e empregamos Amostragem de Destilação de Pontuação para refinar a composição. Experimentos extensivos demonstram que nosso método pode gerar vídeos de alta fidelidade a partir de texto com movimentos diversos e controle flexível sobre cada conceito. Página do projeto: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.Summary
AI-Generated Summary