ChatPaper.aiChatPaper

Droplet3D: 비디오에서 얻은 상식적 사전 지식이 3D 생성에 기여

Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

August 28, 2025
저자: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

초록

스케일링 법칙은 텍스트, 이미지, 비디오 영역에서 대규모 데이터로 훈련된 모델의 창의적 생성 성공과 가능성을 입증했습니다. 그러나 이러한 패러다임은 3D 영역에서 데이터 부족 문제에 직면해 있습니다. 인터넷 상에서 이용 가능한 3D 데이터는 앞서 언급된 모달리티에 비해 훨씬 적기 때문입니다. 다행히도, 상식적 사전 지식을 내재하고 있는 충분한 양의 비디오가 존재하며, 이는 제한된 3D 데이터로 인한 일반화 병목 현상을 완화하기 위한 대체 감독 신호를 제공합니다. 한편으로, 객체나 장면의 다중 뷰를 담은 비디오는 3D 생성을 위한 공간적 일관성 사전 지식을 제공합니다. 다른 한편으로, 비디오에 포함된 풍부한 의미 정보는 생성된 콘텐츠가 텍스트 프롬프트에 더 충실하고 의미적으로 타당하도록 만듭니다. 본 논문은 데이터셋부터 모델에 이르기까지 3D 자산 생성에 비디오 모달리티를 적용하는 방법을 탐구합니다. 우리는 다중 뷰 수준의 주석이 달린 최초의 대규모 비디오 데이터셋인 Droplet3D-4M를 소개하고, 이미지와 밀집 텍스트 입력을 모두 지원하는 생성 모델인 Droplet3D를 훈련시켰습니다. 광범위한 실험을 통해 우리의 접근 방식이 공간적으로 일관되고 의미적으로 타당한 콘텐츠를 생성할 수 있는 능력을 입증했습니다. 더 나아가, 기존의 3D 솔루션과 달리, 우리의 접근 방식은 장면 수준의 응용으로 확장할 수 있는 잠재력을 보여줍니다. 이는 비디오로부터 얻은 상식적 사전 지식이 3D 생성에 상당히 기여함을 나타냅니다. 우리는 데이터셋, 코드, 기술 프레임워크, 모델 가중치를 포함한 모든 리소스를 오픈소스로 공개했습니다: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained models in creative generation across text, image, and video domains. However, this paradigm faces data scarcity in the 3D domain, as there is far less of it available on the internet compared to the aforementioned modalities. Fortunately, there exist adequate videos that inherently contain commonsense priors, offering an alternative supervisory signal to mitigate the generalization bottleneck caused by limited native 3D data. On the one hand, videos capturing multiple views of an object or scene provide a spatial consistency prior for 3D generation. On the other hand, the rich semantic information contained within the videos enables the generated content to be more faithful to the text prompts and semantically plausible. This paper explores how to apply the video modality in 3D asset generation, spanning datasets to models. We introduce Droplet3D-4M, the first large-scale video dataset with multi-view level annotations, and train Droplet3D, a generative model supporting both image and dense text input. Extensive experiments validate the effectiveness of our approach, demonstrating its ability to produce spatially consistent and semantically plausible content. Moreover, in contrast to the prevailing 3D solutions, our approach exhibits the potential for extension to scene-level applications. This indicates that the commonsense priors from the videos significantly facilitate 3D creation. We have open-sourced all resources including the dataset, code, technical framework, and model weights: https://dropletx.github.io/.
PDF642September 1, 2025