Génération vidéo 3D-aware compositionnelle avec le directeur LLM
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
Auteurs: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
Résumé
Des progrès significatifs ont été réalisés dans la génération de texte en vidéo grâce à l'utilisation de modèles génératifs puissants et de données internet à grande échelle. Cependant, des défis importants subsistent dans le contrôle précis des concepts individuels au sein de la vidéo générée, tels que le mouvement et l'apparence de personnages spécifiques et le déplacement des points de vue. Dans ce travail, nous proposons un nouveau paradigme qui génère chaque concept dans une représentation 3D séparée, puis les compose avec des prédictions des Grands Modèles de Langage (GML) et des modèles de diffusion 2D. Plus précisément, en fonction d'une indication textuelle en entrée, notre schéma se compose de trois étapes : 1) Nous exploitons les GML en tant que directeur pour d'abord décomposer la requête complexe en plusieurs sous-indications qui indiquent les concepts individuels au sein de la vidéo (par exemple, scène, objets, mouvements), puis nous laissons les GML invoquer des modèles experts pré-entraînés pour obtenir les représentations 3D correspondantes des concepts. 2) Pour composer ces représentations, nous sollicitons des GML multimodaux pour produire des orientations grossières sur les échelles et les coordonnées des trajectoires des objets. 3) Pour que les images générées respectent la distribution naturelle des images, nous exploitons en outre des prédictions de diffusion 2D et utilisons l'échantillonnage de distillation de score pour affiner la composition. Des expériences approfondies démontrent que notre méthode peut générer des vidéos haute fidélité à partir de texte avec des mouvements variés et un contrôle flexible sur chaque concept. Page du projet : https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.Summary
AI-Generated Summary