ChatPaper.aiChatPaper

Генеративный рендеринг: управляемая генерация видео с 4D-направлением на основе 2D-диффузионных моделей

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

December 3, 2023
Авторы: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI

Аннотация

Традиционные инструменты для создания 3D-контента позволяют пользователям воплощать свои идеи в жизнь, предоставляя им прямой контроль над геометрией сцены, её внешним видом, движением и траекторией камеры. Однако создание компьютерных видеороликов — это трудоёмкий ручной процесс, который можно автоматизировать с помощью современных моделей диффузии для генерации видео из текста. Несмотря на огромный потенциал, управление моделями диффузии для видео остаётся сложной задачей, что ограничивает возможность пользователей применять своё творчество, а не усиливать его. Чтобы решить эту проблему, мы предлагаем новый подход, который сочетает управляемость динамических 3D-сеток с выразительностью и редактируемостью современных моделей диффузии. Для этого наш метод использует анимированную, низкокачественную визуализацию сетки в качестве входных данных и внедряет информацию о соответствии, полученную из динамической сетки, на различных этапах предварительно обученной модели генерации изображений из текста, чтобы получить высококачественные и временно согласованные кадры. Мы демонстрируем наш подход на различных примерах, где движение может быть получено путём анимации риггированных объектов или изменения траектории камеры.
English
Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
PDF112December 15, 2024