Compositionele 3D-bewuste videogeneratie met LLM-regisseur
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
Auteurs: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
Samenvatting
Er is aanzienlijke vooruitgang geboekt in tekst-naar-video-generatie door het gebruik van krachtige generatieve modellen en grootschalige internetdata. Er blijven echter aanzienlijke uitdagingen bestaan in het nauwkeurig beheersen van individuele concepten binnen de gegenereerde video, zoals de beweging en het uiterlijk van specifieke personages en de verplaatsing van gezichtspunten. In dit werk stellen we een nieuw paradigma voor dat elk concept afzonderlijk in 3D-representatie genereert en ze vervolgens samenstelt met behulp van priors uit Large Language Models (LLM) en 2D-diffusiemodellen. Specifiek bestaat ons schema, gegeven een tekstuele prompt, uit drie fasen: 1) We benutten LLM als regisseur om eerst de complexe query op te splitsen in verschillende sub-prompts die individuele concepten binnen de video aangeven (bijv. scène, objecten, bewegingen), waarna we LLM laten aanroepen om vooraf getrainde expertmodellen te gebruiken om overeenkomstige 3D-representaties van de concepten te verkrijgen. 2) Om deze representaties samen te stellen, laten we multi-modale LLM grove richtlijnen produceren over de schalen en coördinaten van trajecten voor de objecten. 3) Om ervoor te zorgen dat de gegenereerde frames voldoen aan de natuurlijke beelddistributie, maken we verder gebruik van 2D-diffusiepriors en gebruiken we Score Distillation Sampling om de samenstelling te verfijnen. Uitgebreide experimenten tonen aan dat onze methode hoogwaardige video's kan genereren vanuit tekst met diverse bewegingen en flexibele controle over elk concept. Projectpagina: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.Summary
AI-Generated Summary