Droplet3D: Common sense-priors uit video's vergemakkelijken 3D-generatie
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
Auteurs: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Samenvatting
Schaalwetten hebben het succes en de belofte van modellen die getraind zijn op grote hoeveelheden data gevalideerd voor creatieve generatie in tekst-, beeld- en videodomeinen. Dit paradigma wordt echter geconfronteerd met een tekort aan data in het 3D-domein, aangezien er veel minder van beschikbaar is op het internet in vergelijking met de eerder genoemde modaliteiten. Gelukkig bestaan er voldoende video's die inherente commonsense-priors bevatten, wat een alternatief superviserend signaal biedt om het generalisatieprobleem veroorzaakt door beperkte native 3D-data te verlichten. Enerzijds bieden video's die meerdere aanzichten van een object of scène vastleggen een ruimtelijke consistentieprior voor 3D-generatie. Anderzijds zorgt de rijke semantische informatie in de video's ervoor dat de gegenereerde inhoud trouwer is aan de tekstprompts en semantisch plausibel. Dit artikel onderzoekt hoe de videomodaliteit kan worden toegepast in 3D-assetgeneratie, van datasets tot modellen. We introduceren Droplet3D-4M, de eerste grootschalige videodataset met annotaties op meervoudig aanzichts niveau, en trainen Droplet3D, een generatief model dat zowel beeld- als dichte tekstinvoer ondersteunt. Uitgebreide experimenten valideren de effectiviteit van onze aanpak, waarbij wordt aangetoond dat deze in staat is om ruimtelijk consistente en semantisch plausibele inhoud te produceren. Bovendien, in tegenstelling tot de heersende 3D-oplossingen, toont onze aanpak het potentieel voor uitbreiding naar scene-level toepassingen. Dit geeft aan dat de commonsense-priors uit de video's 3D-creatie aanzienlijk vergemakkelijken. We hebben alle bronnen openbaar gemaakt, inclusief de dataset, code, technisch framework en modelgewichten: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.