Droplet3D: ビデオからの常識的プライアが3D生成を促進
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
著者: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
要旨
スケーリング則は、テキスト、画像、動画の領域における大規模データで訓練されたモデルの創造的生成における成功と可能性を検証してきた。しかし、このパラダイムは3D領域においてデータ不足に直面している。なぜなら、前述のモダリティと比較して、インターネット上で利用可能な3Dデータははるかに少ないからである。幸いなことに、常識的な事前知識を内包する十分な動画が存在し、限られたネイティブ3Dデータによって引き起こされる汎化のボトルネックを緩和するための代替的な教師信号を提供する。一方で、オブジェクトやシーンの複数の視点を捉えた動画は、3D生成のための空間的一貫性の事前知識を提供する。他方で、動画に含まれる豊富な意味情報は、生成されたコンテンツがテキストプロンプトにより忠実で、意味的に妥当であることを可能にする。本論文では、3Dアセット生成において動画モダリティをどのように適用するかを、データセットからモデルまで広く探求する。我々は、マルチビューレベルのアノテーションを備えた初の大規模動画データセットであるDroplet3D-4Mを紹介し、画像と高密度テキスト入力の両方をサポートする生成モデルDroplet3Dを訓練する。広範な実験により、我々のアプローチの有効性が検証され、空間的一貫性と意味的妥当性を備えたコンテンツを生成する能力が実証された。さらに、主流の3Dソリューションとは対照的に、我々のアプローチはシーンレベルアプリケーションへの拡張の可能性を示している。これは、動画からの常識的事前知識が3D作成を大幅に促進することを示唆している。我々は、データセット、コード、技術フレームワーク、モデルウェイトを含むすべてのリソースをオープンソースとして公開した: https://dropletx.github.io/。
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.