Droplet3D : Les connaissances préalables issues des vidéos facilitent la génération 3D
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
papers.authors: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
papers.abstract
Les lois d'échelle ont validé le succès et le potentiel des modèles entraînés sur de grandes quantités de données dans la génération créative à travers les domaines du texte, de l'image et de la vidéo. Cependant, ce paradigme se heurte à une pénurie de données dans le domaine 3D, car celles-ci sont beaucoup moins disponibles sur internet comparé aux modalités mentionnées précédemment. Heureusement, il existe des vidéos adéquates qui contiennent intrinsèquement des connaissances préalables de bon sens, offrant ainsi un signal de supervision alternatif pour atténuer le goulot d'étranglement de généralisation causé par les données 3D natives limitées. D'une part, les vidéos capturant plusieurs vues d'un objet ou d'une scène fournissent une cohérence spatiale préalable pour la génération 3D. D'autre part, les riches informations sémantiques contenues dans les vidéos permettent au contenu généré d'être plus fidèle aux invites textuelles et sémantiquement plausible. Cet article explore comment appliquer la modalité vidéo dans la génération d'actifs 3D, des ensembles de données aux modèles. Nous présentons Droplet3D-4M, le premier ensemble de données vidéo à grande échelle avec des annotations de niveau multi-vues, et entraînons Droplet3D, un modèle génératif prenant en charge à la fois les entrées d'images et de texte dense. Des expériences approfondies valident l'efficacité de notre approche, démontrant sa capacité à produire un contenu spatialement cohérent et sémantiquement plausible. De plus, contrairement aux solutions 3D prédominantes, notre approche montre un potentiel d'extension aux applications au niveau de la scène. Cela indique que les connaissances préalables de bon sens issues des vidéos facilitent considérablement la création 3D. Nous avons rendu publics toutes les ressources, y compris l'ensemble de données, le code, le cadre technique et les poids du modèle : https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.