ChatPaper.aiChatPaper

Генерация видео с учетом трехмерной композиции с помощью директора LLM.

Compositional 3D-aware Video Generation with LLM Director

August 31, 2024
Авторы: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI

Аннотация

Значительные успехи были достигнуты в генерации текста в видео благодаря использованию мощных генеративных моделей и масштабных интернет-данных. Однако остаются существенные вызовы в точном контроле отдельных концепций в созданном видео, таких как движение и внешний вид конкретных персонажей и изменение точек зрения. В данной работе мы предлагаем новую парадигму, которая генерирует каждый концепт в трехмерном представлении отдельно, а затем объединяет их с априорными знаниями от крупных языковых моделей (LLM) и двумерных моделей диффузии. Конкретно, учитывая входное текстовое подсказывание, наша схема состоит из трех этапов: 1) Мы используем LLM в качестве директора для начального декомпозирования сложного запроса на несколько подподсказываний, указывающих на отдельные концепции в видео (например, сцена, объекты, движения), затем мы позволяем LLM вызывать предварительно обученные экспертные модели для получения соответствующих трехмерных представлений концепций. 2) Для объединения этих представлений мы подталкиваем мультимодальные LLM для создания грубого руководства по масштабам и координатам траекторий объектов. 3) Чтобы сделать сгенерированные кадры соответствующими естественному распределению изображений, мы дополнительно используем априорные знания двумерной диффузии и применяем метод Score Distillation Sampling для улучшения композиции. Обширные эксперименты демонстрируют, что наш метод способен генерировать видео высокой точности из текста с разнообразным движением и гибким контролем над каждым концептом. Страница проекта: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the use of powerful generative models and large-scale internet data. However, substantial challenges remain in precisely controlling individual concepts within the generated video, such as the motion and appearance of specific characters and the movement of viewpoints. In this work, we propose a novel paradigm that generates each concept in 3D representation separately and then composes them with priors from Large Language Models (LLM) and 2D diffusion models. Specifically, given an input textual prompt, our scheme consists of three stages: 1) We leverage LLM as the director to first decompose the complex query into several sub-prompts that indicate individual concepts within the video~(e.g., scene, objects, motions), then we let LLM to invoke pre-trained expert models to obtain corresponding 3D representations of concepts. 2) To compose these representations, we prompt multi-modal LLM to produce coarse guidance on the scales and coordinates of trajectories for the objects. 3) To make the generated frames adhere to natural image distribution, we further leverage 2D diffusion priors and use Score Distillation Sampling to refine the composition. Extensive experiments demonstrate that our method can generate high-fidelity videos from text with diverse motion and flexible control over each concept. Project page: https://aka.ms/c3v.

Summary

AI-Generated Summary

PDF152November 16, 2024