Kompositionelle 3D-bewusste Videogenerierung mit LLM Director
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
Autoren: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
Zusammenfassung
Durch den Einsatz leistungsstarker generativer Modelle und umfangreicher Internetdaten wurden bedeutende Fortschritte bei der Text-zu-Video-Erzeugung erzielt. Es bestehen jedoch weiterhin erhebliche Herausforderungen bei der präzisen Steuerung einzelner Konzepte innerhalb des generierten Videos, wie z.B. der Bewegung und dem Aussehen bestimmter Charaktere sowie der Bewegung von Blickpunkten. In dieser Arbeit schlagen wir ein neuartiges Paradigma vor, das jedes Konzept separat in einer 3D-Repräsentation generiert und diese dann mit Prioritäten aus Large Language Models (LLM) und 2D-Diffusionsmodellen zusammensetzt. Konkret besteht unser Schema aus drei Phasen: 1) Wir nutzen LLM als Regisseur, um die komplexe Abfrage zunächst in mehrere Teilanfragen zu zerlegen, die einzelne Konzepte im Video anzeigen (z.B. Szene, Objekte, Bewegungen), dann lassen wir LLM vortrainierte Expertenmodelle aufrufen, um entsprechende 3D-Repräsentationen der Konzepte zu erhalten. 2) Um diese Repräsentationen zu komponieren, fordern wir multimodale LLM auf, grobe Anleitungen zu den Skalen und Koordinaten von Trajektorien für die Objekte zu erstellen. 3) Um sicherzustellen, dass die generierten Frames der natürlichen Bildverteilung entsprechen, nutzen wir zusätzlich 2D-Diffusionsprioritäten und verwenden Score Distillation Sampling, um die Komposition zu verfeinern. Umfangreiche Experimente zeigen, dass unsere Methode hochwertige Videos aus Text mit vielfältiger Bewegung und flexibler Kontrolle über jedes Konzept generieren kann. Projektseite: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.Summary
AI-Generated Summary