Je ziet het, je hebt het: Leren van 3D-creatie op pose-vrije video's op schaal
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale
December 9, 2024
Auteurs: Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang
cs.AI
Samenvatting
Recente 3D-generatiemodellen vertrouwen doorgaans op beperkte schaal 3D 'goudlabels' of 2D-diffusiepriors voor 3D-contentcreatie. Hun prestaties worden echter beperkt door beperkte 3D-priors vanwege het ontbreken van schaalbare leermethoden. In dit werk presenteren we See3D, een visueel-conditioneel multi-view diffusiemodel dat is getraind op grootschalige internetvideo's voor open-wereld 3D-creatie. Het model streeft ernaar 3D-kennis te verkrijgen door enkel de visuele inhoud te zien van de uitgebreide en snelgroeiende videogegevens - Je ziet het, je hebt het. Om dit te bereiken, schalen we eerst de trainingsgegevens op met behulp van een voorgestelde gegevenscuratiepijplijn die automatisch inconsistente multi-view beelden en onvoldoende observaties uit bronvideo's filtert. Dit resulteert in een hoogwaardige, rijk gevarieerde, grootschalige dataset van multi-view beelden, genaamd WebVi3D, met 320 miljoen frames uit 16 miljoen videoclips. Desalniettemin is het leren van generieke 3D-priors uit video's zonder expliciete 3D-geometrie of camerapositieannotaties niet triviaal, en het annoteren van posities voor web-schaal video's is buitengewoon duur. Om de noodzaak van posities te elimineren, introduceren we een innovatieve visuele conditie - een puur 2D-inductief visueel signaal gegenereerd door tijdafhankelijk ruis toe te voegen aan de gemaskeerde videogegevens. Tot slot introduceren we een nieuw visueel-conditioneel 3D-generatiekader door See3D te integreren in een op warping gebaseerde pijplijn voor hoogwaardige 3D-generatie. Onze numerieke en visuele vergelijkingen op enkele en schaarse reconstructie-benchmarks tonen aan dat See3D, getraind op kosteneffectieve en schaalbare videogegevens, opmerkelijke zero-shot en open-wereld generatiecapaciteiten bereikt, aanzienlijk beter presterend dan modellen getraind op dure en beperkte 3D-datasets. Raadpleeg onze projectpagina op: https://vision.baai.ac.cn/see3d
English
Recent 3D generation models typically rely on limited-scale 3D `gold-labels'
or 2D diffusion priors for 3D content creation. However, their performance is
upper-bounded by constrained 3D priors due to the lack of scalable learning
paradigms. In this work, we present See3D, a visual-conditional multi-view
diffusion model trained on large-scale Internet videos for open-world 3D
creation. The model aims to Get 3D knowledge by solely Seeing the visual
contents from the vast and rapidly growing video data -- You See it, You Got
it. To achieve this, we first scale up the training data using a proposed data
curation pipeline that automatically filters out multi-view inconsistencies and
insufficient observations from source videos. This results in a high-quality,
richly diverse, large-scale dataset of multi-view images, termed WebVi3D,
containing 320M frames from 16M video clips. Nevertheless, learning generic 3D
priors from videos without explicit 3D geometry or camera pose annotations is
nontrivial, and annotating poses for web-scale videos is prohibitively
expensive. To eliminate the need for pose conditions, we introduce an
innovative visual-condition - a purely 2D-inductive visual signal generated by
adding time-dependent noise to the masked video data. Finally, we introduce a
novel visual-conditional 3D generation framework by integrating See3D into a
warping-based pipeline for high-fidelity 3D generation. Our numerical and
visual comparisons on single and sparse reconstruction benchmarks show that
See3D, trained on cost-effective and scalable video data, achieves notable
zero-shot and open-world generation capabilities, markedly outperforming models
trained on costly and constrained 3D datasets. Please refer to our project page
at: https://vision.baai.ac.cn/see3d