3DreamBooth: Модель генерации видео с высоким качеством на основе 3D-объекта

Аннотация

Создание динамичных, согласованных по виду видеороликов с персонализированными объектами чрезвычайно востребовано для широкого спектра новых приложений, включая иммерсивные VR/AR, виртуальное производство и электронную коммерцию следующего поколения. Однако, несмотря на быстрый прогресс в генерации видео на основе заданного объекта, существующие методы преимущественно рассматривают объекты как двумерные сущности, фокусируясь на передаче идентичности через одновидовые визуальные признаки или текстовые промпты. Поскольку реальные объекты по своей природе трехмерны, применение этих подходов, ориентированных на 2D, к кастомизации 3D-объектов выявляет фундаментальное ограничение: им не хватает комплексных пространственных априорных знаний, необходимых для реконструкции трехмерной геометрии. Как следствие, при синтезе новых ракурсов они вынуждены полагаться на генерацию правдоподобных, но произвольных деталей для невидимых областей, вместо сохранения подлинной 3D-идентичности. Достижение подлинной 3D-осознанной кастомизации остается сложной задачей из-за дефицита наборов данных многовидового видео. Хотя можно попытаться дообучить модели на ограниченных видеопоследовательностях, это часто приводит к временному переобучению. Для решения этих проблем мы представляем новую структуру для 3D-осознанной кастомизации видео, состоящую из 3DreamBooth и 3Dapter. 3DreamBooth разделяет пространственную геометрию и временное движение через парадигму оптимизации по одному кадру. Ограничивая обновления пространственных представлений, метод эффективно встраивает надежное 3D-априори в модель без необходимости трудоемкого обучения на видео. Для улучшения детализированных текстур и ускорения сходимости мы интегрируем 3Dapter — модуль визуального кондиционирования. После одновидового предварительного обучения 3Dapter проходит многовидовую совместную оптимизацию с основной генеративной ветвью через асимметричную стратегию кондиционирования. Такая конструкция позволяет модулю действовать как динамический селективный маршрутизатор, запрашивая специфичные для вида геометрические подсказки из минимального референсного набора. Страница проекта: https://ko-lani.github.io/3DreamBooth/

English

Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/

3DreamBooth: Модель генерации видео с высоким качеством на основе 3D-объекта

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Аннотация

Support