Droplet3D: Приоритеты здравого смысла, извлеченные из видео, упрощают генерацию 3D-моделей
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
Авторы: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Аннотация
Масштабные законы подтвердили успех и перспективность моделей, обученных на больших объемах данных, в задачах творческой генерации в текстовой, графической и видеодоменах. Однако в 3D-домене эта парадигма сталкивается с проблемой нехватки данных, поскольку их доступно значительно меньше в интернете по сравнению с упомянутыми модальностями. К счастью, существуют достаточные объемы видео, которые содержат в себе априорные знания о здравом смысле, предлагая альтернативный сигнал для обучения, что помогает смягчить ограничения обобщения, вызванные недостатком нативных 3D-данных. С одной стороны, видео, фиксирующие объекты или сцены с нескольких ракурсов, предоставляют априорную информацию о пространственной согласованности для 3D-генерации. С другой стороны, богатая семантическая информация, содержащаяся в видео, позволяет создаваемому контенту быть более точным по отношению к текстовым запросам и семантически правдоподобным. В данной статье исследуется, как можно применить видеомодальность для генерации 3D-ассетов, охватывая как наборы данных, так и модели. Мы представляем Droplet3D-4M — первый крупномасштабный набор видеоданных с аннотациями на уровне многовидовых сцен, а также обучаем Droplet3D — генеративную модель, поддерживающую как изображения, так и плотные текстовые входные данные. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя его способность создавать пространственно согласованный и семантически правдоподобный контент. Более того, в отличие от преобладающих 3D-решений, наш подход обладает потенциалом для расширения на задачи уровня сцен. Это указывает на то, что априорные знания из видео значительно облегчают создание 3D-контента. Мы открыли доступ ко всем ресурсам, включая набор данных, код, техническую архитектуру и веса модели: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.