ChatPaper.aiChatPaper

Droplet3D: Priorità di buon senso dai video facilitano la generazione 3D

Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

August 28, 2025
Autori: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

Abstract

Le leggi di scala hanno validato il successo e le potenzialità dei modelli addestrati su grandi quantità di dati nella generazione creativa attraverso i domini di testo, immagini e video. Tuttavia, questo paradigma si scontra con la scarsità di dati nel dominio 3D, poiché ce ne sono molti meno disponibili su internet rispetto alle modalità menzionate. Fortunatamente, esistono video adeguati che contengono intrinsecamente conoscenze di senso comune, offrendo un segnale di supervisione alternativo per mitigare il collo di bottiglia nella generalizzazione causato dai dati 3D nativi limitati. Da un lato, i video che catturano più viste di un oggetto o di una scena forniscono un precedente di coerenza spaziale per la generazione 3D. Dall'altro, le ricche informazioni semantiche contenute nei video consentono ai contenuti generati di essere più fedeli ai prompt testuali e semanticamente plausibili. Questo articolo esplora come applicare la modalità video nella generazione di asset 3D, spaziando dai dataset ai modelli. Introduciamo Droplet3D-4M, il primo dataset video su larga scala con annotazioni a livello di multi-vista, e addestriamo Droplet3D, un modello generativo che supporta sia input di immagini che di testo denso. Esperimenti estensivi validano l'efficacia del nostro approccio, dimostrando la sua capacità di produrre contenuti spazialmente coerenti e semanticamente plausibili. Inoltre, in contrasto con le soluzioni 3D prevalenti, il nostro approccio mostra il potenziale per l'estensione ad applicazioni a livello di scena. Ciò indica che le conoscenze di senso comune dai video facilitano significativamente la creazione 3D. Abbiamo reso open-source tutte le risorse, inclusi il dataset, il codice, il framework tecnico e i pesi del modello: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained models in creative generation across text, image, and video domains. However, this paradigm faces data scarcity in the 3D domain, as there is far less of it available on the internet compared to the aforementioned modalities. Fortunately, there exist adequate videos that inherently contain commonsense priors, offering an alternative supervisory signal to mitigate the generalization bottleneck caused by limited native 3D data. On the one hand, videos capturing multiple views of an object or scene provide a spatial consistency prior for 3D generation. On the other hand, the rich semantic information contained within the videos enables the generated content to be more faithful to the text prompts and semantically plausible. This paper explores how to apply the video modality in 3D asset generation, spanning datasets to models. We introduce Droplet3D-4M, the first large-scale video dataset with multi-view level annotations, and train Droplet3D, a generative model supporting both image and dense text input. Extensive experiments validate the effectiveness of our approach, demonstrating its ability to produce spatially consistent and semantically plausible content. Moreover, in contrast to the prevailing 3D solutions, our approach exhibits the potential for extension to scene-level applications. This indicates that the commonsense priors from the videos significantly facilitate 3D creation. We have open-sourced all resources including the dataset, code, technical framework, and model weights: https://dropletx.github.io/.
PDF732September 1, 2025