Droplet3D: Commonsense-Prioritäten aus Videos erleichtern die 3D-Generierung
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
papers.authors: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
papers.abstract
Skalierungsgesetze haben den Erfolg und das Potenzial von Modellen, die mit großen Datenmengen trainiert wurden, in der kreativen Generierung über Text-, Bild- und Videobereiche hinweg bestätigt. Allerdings steht dieses Paradigma im 3D-Bereich vor dem Problem der Datenknappheit, da im Vergleich zu den genannten Modalitäten weit weniger davon im Internet verfügbar ist. Glücklicherweise gibt es ausreichend Videos, die inhärent Common-Sense-Priors enthalten und somit ein alternatives Überwachungssignal bieten, um den durch begrenzte native 3D-Daten verursachten Generalisierungsengpass zu mildern. Einerseits bieten Videos, die mehrere Ansichten eines Objekts oder einer Szene erfassen, ein räumliches Konsistenzprior für die 3D-Generierung. Andererseits ermöglicht die reiche semantische Information in den Videos, dass der generierte Inhalt textgetreuer und semantisch plausibler ist. Diese Arbeit untersucht, wie die Videomodalität in der 3D-Asset-Generierung angewendet werden kann, von Datensätzen bis hin zu Modellen. Wir stellen Droplet3D-4M vor, den ersten groß angelegten Videodatensatz mit Annotationen auf Multi-View-Ebene, und trainieren Droplet3D, ein generatives Modell, das sowohl Bild- als auch dichte Texteingaben unterstützt. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und zeigen seine Fähigkeit, räumlich konsistenten und semantisch plausiblen Inhalt zu erzeugen. Darüber hinaus zeigt unser Ansatz im Gegensatz zu den vorherrschenden 3D-Lösungen das Potenzial für eine Erweiterung auf Anwendungen auf Szenenebene. Dies deutet darauf hin, dass die Common-Sense-Priors aus den Videos die 3D-Erstellung erheblich erleichtern. Wir haben alle Ressourcen, einschließlich des Datensatzes, des Codes, des technischen Frameworks und der Modellgewichte, open-source veröffentlicht: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.