3DreamBooth : Modèle de génération vidéo 3D haute fidélité piloté par un sujet

Résumé

La création de vidéos dynamiques et cohérentes en vue de sujets personnalisés est très demandée pour un large éventail d'applications émergentes, notamment la RV/RA immersive, la production virtuelle et le commerce électronique de nouvelle génération. Cependant, malgré les progrès rapides dans la génération de vidéos pilotée par le sujet, les méthodes existantes traitent principalement les sujets comme des entités 2D, en se concentrant sur le transfert d'identité via des caractéristiques visuelles monoculaires ou des invites textuelles. Étant donné que les sujets du monde réel sont intrinsèquement 3D, l'application de ces approches centrées sur la 2D à la personnalisation d'objets 3D révèle une limitation fondamentale : elles manquent des préconnaissances spatiales complètes nécessaires pour reconstruire la géométrie 3D. Par conséquent, lors de la synthèse de nouvelles vues, elles doivent compter sur la génération de détails plausibles mais arbitraires pour les régions non visibles, plutôt que de préserver la véritable identité 3D. Atteindre une personnalisation véritablement consciente de la 3D reste difficile en raison de la rareté des jeux de données vidéo multi-vues. Bien que l'on puisse tenter de fine-tuner des modèles sur des séquences vidéo limitées, cela conduit souvent à un surapprentissage temporel. Pour résoudre ces problèmes, nous introduisons un nouveau cadre pour la personnalisation vidéo 3D-aware, comprenant 3DreamBooth et 3Dapter. 3DreamBooth découple la géométrie spatiale du mouvement temporel grâce à un paradigme d'optimisation sur 1 image. En limitant les mises à jour aux représentations spatiales, il intègre efficacement une solide préconnaissance 3D dans le modèle sans nécessiter d'apprentissage exhaustif basé sur la vidéo. Pour améliorer les textures à grain fin et accélérer la convergence, nous incorporons 3Dapter, un module de conditionnement visuel. Après un pré-entraînement mono-vue, 3Dapter subit une optimisation conjointe multi-vues avec la branche de génération principale via une stratégie de conditionnement asymétrique. Cette conception permet au module d'agir comme un routeur sélectif dynamique, interrogeant des indices géométriques spécifiques à la vue à partir d'un ensemble de référence minimal. Page du projet : https://ko-lani.github.io/3DreamBooth/

English

Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/

3DreamBooth : Modèle de génération vidéo 3D haute fidélité piloté par un sujet

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Résumé

Support