ChatPaper.aiChatPaper

VideoFrom3D: Генерация видео 3D-сцен с использованием комплементарных моделей диффузии изображений и видео

VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

September 22, 2025
Авторы: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI

Аннотация

В данной статье мы представляем VideoFrom3D — новый фреймворк для синтеза высококачественных видеороликов 3D-сцен на основе грубой геометрии, траектории камеры и эталонного изображения. Наш подход упрощает рабочий процесс 3D-графического дизайна, обеспечивая гибкость в исследовании дизайна и быструю подготовку конечных материалов. Простой подход к синтезу видео из грубой геометрии мог бы использовать видео-диффузионную модель, учитывающую геометрическую структуру. Однако существующие видео-диффузионные модели сталкиваются с трудностями при генерации высококачественных результатов для сложных сцен из-за сложности совместного моделирования визуального качества, движения и временной согласованности. Для решения этой проблемы мы предлагаем генеративный фреймворк, который объединяет преимущества изображений и видео-диффузионных моделей. В частности, наш фреймворк состоит из модуля Sparse Anchor-view Generation (SAG) и модуля Geometry-guided Generative Inbetweening (GGI). Модуль SAG генерирует высококачественные, согласованные по видам опорные кадры с использованием изображений-диффузионной модели, поддерживаемой Sparse Appearance-guided Sampling. На основе этих опорных кадров модуль GGI точно интерполирует промежуточные кадры с помощью видео-диффузионной модели, улучшенной за счет управления камерой на основе потоков и структурного руководства. Важно отметить, что оба модуля работают без использования парных наборов данных 3D-моделей сцен и натуральных изображений, которые крайне сложно получить. Комплексные эксперименты показывают, что наш метод создает высококачественные, стилистически согласованные видеоролики сцен в разнообразных и сложных сценариях, превосходя простые и расширенные базовые подходы.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing high-quality 3D scene videos from coarse geometry, a camera trajectory, and a reference image. Our approach streamlines the 3D graphic design workflow, enabling flexible design exploration and rapid production of deliverables. A straightforward approach to synthesizing a video from coarse geometry might condition a video diffusion model on geometric structure. However, existing video diffusion models struggle to generate high-fidelity results for complex scenes due to the difficulty of jointly modeling visual quality, motion, and temporal consistency. To address this, we propose a generative framework that leverages the complementary strengths of image and video diffusion models. Specifically, our framework consists of a Sparse Anchor-view Generation (SAG) and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module generates high-quality, cross-view consistent anchor views using an image diffusion model, aided by Sparse Appearance-guided Sampling. Building on these anchor views, GGI module faithfully interpolates intermediate frames using a video diffusion model, enhanced by flow-based camera control and structural guidance. Notably, both modules operate without any paired dataset of 3D scene models and natural images, which is extremely difficult to obtain. Comprehensive experiments show that our method produces high-quality, style-consistent scene videos under diverse and challenging scenarios, outperforming simple and extended baselines.
PDF252September 23, 2025