ChatPaper.aiChatPaper

3DreamBooth: Modelo de Generación de Vídeo 3D de Alta Fidelidad Dirigido por Sujetos

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

March 19, 2026
Autores: Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, Dongheok Park, Eunbyung Park
cs.AI

Resumen

La creación de videos dinámicos y coherentes desde cualquier punto de vista de sujetos personalizados es muy demandada para una amplia gama de aplicaciones emergentes, incluyendo RV/RA inmersiva, producción virtual y el comercio electrónico de próxima generación. Sin embargo, a pesar del rápido progreso en la generación de videos impulsada por sujetos, los métodos existentes tratan predominantemente a los sujetos como entidades 2D, centrándose en transferir la identidad a través de características visuales de vista única o indicaciones textuales. Dado que los sujetos del mundo real son inherentemente 3D, la aplicación de estos enfoques centrados en 2D a la personalización de objetos 3D revela una limitación fundamental: carecen de los conocimientos previos espaciales integrales necesarios para reconstruir la geometría 3D. En consecuencia, al sintetizar nuevas vistas, deben depender de la generación de detalles plausibles pero arbitrarios para las regiones no vistas, en lugar de preservar la verdadera identidad 3D. Lograr una personalización genuinamente consciente del 3D sigue siendo un desafío debido a la escasez de conjuntos de datos de video multivista. Aunque se podría intentar ajustar modelos en secuencias de video limitadas, esto a menudo conduce a un sobreajuste temporal. Para resolver estos problemas, presentamos un nuevo marco para la personalización de video consciente del 3D, que comprende 3DreamBooth y 3Dapter. 3DreamBooth desacopla la geometría espacial del movimiento temporal a través de un paradigma de optimización de 1 fotograma. Al restringir las actualizaciones a las representaciones espaciales, incorpora eficazmente un conocimiento previo 3D robusto en el modelo sin necesidad de un entrenamiento exhaustivo basado en video. Para mejorar las texturas de grano fino y acelerar la convergencia, incorporamos 3Dapter, un módulo de condicionamiento visual. Tras un pre-entrenamiento de vista única, 3Dapter se somete a una optimización conjunta multivista con la rama principal de generación mediante una estrategia de condicionamiento asimétrico. Este diseño permite que el módulo actúe como un enrutador selectivo dinámico, consultando pistas geométricas específicas de la vista a partir de un conjunto de referencia mínimo. Página del proyecto: https://ko-lani.github.io/3DreamBooth/
English
Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/
PDF392March 21, 2026