ChatPaper.aiChatPaper

3DreamBooth: Hoogfideliteit 3D Model voor Onderwerpgestuurde Videogeneratie

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

March 19, 2026
Auteurs: Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, Dongheok Park, Eunbyung Park
cs.AI

Samenvatting

Het creëren van dynamische, view-consistente video's van gepersonaliseerde onderwerpen is zeer gewild voor een breed scala aan opkomende toepassingen, waaronder immersieve VR/AR, virtuele productie en e-commerce van de volgende generatie. Ondanks de snelle vooruitgang in onderwerpgedreven videogeneratie, behandelen bestaande methoden onderwerpen echter overwegend als 2D-entiteiten, waarbij de focus ligt op het overdragen van identiteit via visuele kenmerken vanuit één gezichtspunt of tekstuele prompts. Omdat onderwerpen in de echte wereld inherent 3D zijn, legt de toepassing van deze 2D-gerichte benaderingen op 3D-objectcustomizatie een fundamentele beperking bloot: ze missen de uitgebreide ruimtelijke priors die nodig zijn om de 3D-geometrie te reconstrueren. Bij het synthetiseren van nieuwe gezichtspunten zijn ze daarom aangewezen op het genereren van plausibele maar willekeurige details voor onzichtbare gebieden, in plaats van de ware 3D-identiteit te behouden. Het bereiken van echte 3D-bewuste customizatie blijft een uitdaging vanwege de schaarste aan multi-view videodatasets. Hoewel men zou kunnen proberen modellen af te stemmen op beperkte videosequenties, leidt dit vaak tot temporele overfitting. Om deze problemen op te lossen, introduceren we een nieuw framework voor 3D-bewuste videocustomizatie, bestaande uit 3DreamBooth en 3Dapter. 3DreamBooth ontkoppelt ruimtelijke geometrie van temporele beweging via een 1-frame optimalisatieparadigma. Door updates te beperken tot ruimtelijke representaties, wordt een robuuste 3D-prior effectief in het model gebakken zonder uitgebreide training op basis van video. Om fijnmazige texturen te verbeteren en convergentie te versnellen, integreren we 3Dapter, een visuele conditioneringmodule. Na pre-training met één gezichtspunt ondergaat 3Dapter multi-view gezamenlijke optimalisatie met de hoofdgeneratietak via een asymmetrische conditioneringstrategie. Dit ontwerp stelt de module in staat om te fungeren als een dynamische selectieve router, die viewspecifieke geometrische aanwijzingen opvraagt vanuit een minimale referentieset. Projectpagina: https://ko-lani.github.io/3DreamBooth/
English
Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/
PDF533March 23, 2026