ChatPaper.aiChatPaper

Generazione video consapevole in 3D con direttore LLM

Compositional 3D-aware Video Generation with LLM Director

August 31, 2024
Autori: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI

Abstract

Sono stati compiuti significativi progressi nella generazione di video da testo attraverso l'uso di potenti modelli generativi e di dati su larga scala provenienti da internet. Tuttavia, rimangono sfide sostanziali nel controllare con precisione concetti individuali all'interno del video generato, come il movimento e l'aspetto di personaggi specifici e il cambiamento dei punti di vista. In questo lavoro, proponiamo un nuovo paradigma che genera ogni concetto separatamente in una rappresentazione 3D e poi li compone con priori derivati dai Large Language Models (LLM) e modelli di diffusione 2D. In particolare, dato un prompt testuale in input, il nostro schema consiste in tre fasi: 1) Sfruttiamo il LLM come direttore per prima cosa decomporre la query complessa in diversi sotto-prompts che indicano concetti individuali all'interno del video (ad esempio, scena, oggetti, movimenti), quindi facciamo sì che il LLM invochi modelli esperti pre-addestrati per ottenere rappresentazioni 3D corrispondenti ai concetti. 2) Per comporre queste rappresentazioni, chiediamo al LLM multimodale di produrre una guida approssimativa sulle scale e le coordinate delle traiettorie degli oggetti. 3) Per far sì che i frame generati rispettino la distribuzione naturale delle immagini, sfruttiamo ulteriormente priori di diffusione 2D e utilizziamo il campionamento di distillazione dei punteggi per perfezionare la composizione. Estesi esperimenti dimostrano che il nostro metodo può generare video ad alta fedeltà da testo con movimenti diversificati e controllo flessibile su ciascun concetto. Pagina del progetto: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the use of powerful generative models and large-scale internet data. However, substantial challenges remain in precisely controlling individual concepts within the generated video, such as the motion and appearance of specific characters and the movement of viewpoints. In this work, we propose a novel paradigm that generates each concept in 3D representation separately and then composes them with priors from Large Language Models (LLM) and 2D diffusion models. Specifically, given an input textual prompt, our scheme consists of three stages: 1) We leverage LLM as the director to first decompose the complex query into several sub-prompts that indicate individual concepts within the video~(e.g., scene, objects, motions), then we let LLM to invoke pre-trained expert models to obtain corresponding 3D representations of concepts. 2) To compose these representations, we prompt multi-modal LLM to produce coarse guidance on the scales and coordinates of trajectories for the objects. 3) To make the generated frames adhere to natural image distribution, we further leverage 2D diffusion priors and use Score Distillation Sampling to refine the composition. Extensive experiments demonstrate that our method can generate high-fidelity videos from text with diverse motion and flexible control over each concept. Project page: https://aka.ms/c3v.
PDF152November 16, 2024