ChatPaper.aiChatPaper

Lo ves, lo obtienes: Aprendizaje de Creación 3D en Videos sin Poses a Escala

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

December 9, 2024
Autores: Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang
cs.AI

Resumen

Los modelos de generación 3D recientes suelen depender de 'etiquetas de oro' 3D de escala limitada o prioridades de difusión 2D para la creación de contenido 3D. Sin embargo, su rendimiento está limitado por prioridades 3D restringidas debido a la falta de paradigmas de aprendizaje escalables. En este trabajo, presentamos See3D, un modelo de difusión multi-vista condicional visual entrenado en videos de Internet a gran escala para la creación 3D de un mundo abierto. El modelo tiene como objetivo obtener conocimiento 3D simplemente viendo los contenidos visuales de los vastos y rápidamente crecientes datos de video: Lo Ves, Lo Tienes. Para lograr esto, primero escalamos los datos de entrenamiento utilizando un pipeline de curación de datos propuesto que filtra automáticamente inconsistencias multi-vista y observaciones insuficientes de videos fuente. Esto resulta en un conjunto de datos a gran escala, de alta calidad y ricamente diverso de imágenes multi-vista, denominado WebVi3D, que contiene 320 millones de fotogramas de 16 millones de videoclips. Sin embargo, aprender prioridades 3D genéricas de videos sin anotaciones explícitas de geometría 3D o posición de cámara es complicado, y anotar poses para videos a escala web es prohibitivamente costoso. Para eliminar la necesidad de condiciones de poses, introducimos una condición visual innovadora: una señal visual puramente inductiva 2D generada mediante la adición de ruido dependiente del tiempo a los datos de video enmascarados. Finalmente, presentamos un marco de generación 3D visual-condicional novedoso integrando See3D en un pipeline basado en deformaciones para la generación 3D de alta fidelidad. Nuestras comparaciones numéricas y visuales en referencias de reconstrucción única y dispersa muestran que See3D, entrenado en datos de video rentables y escalables, logra notables capacidades de generación de mundo abierto y de cero disparo, superando notablemente a los modelos entrenados en conjuntos de datos 3D costosos y restringidos. Por favor, consulte nuestra página de proyecto en: https://vision.baai.ac.cn/see3d
English
Recent 3D generation models typically rely on limited-scale 3D `gold-labels' or 2D diffusion priors for 3D content creation. However, their performance is upper-bounded by constrained 3D priors due to the lack of scalable learning paradigms. In this work, we present See3D, a visual-conditional multi-view diffusion model trained on large-scale Internet videos for open-world 3D creation. The model aims to Get 3D knowledge by solely Seeing the visual contents from the vast and rapidly growing video data -- You See it, You Got it. To achieve this, we first scale up the training data using a proposed data curation pipeline that automatically filters out multi-view inconsistencies and insufficient observations from source videos. This results in a high-quality, richly diverse, large-scale dataset of multi-view images, termed WebVi3D, containing 320M frames from 16M video clips. Nevertheless, learning generic 3D priors from videos without explicit 3D geometry or camera pose annotations is nontrivial, and annotating poses for web-scale videos is prohibitively expensive. To eliminate the need for pose conditions, we introduce an innovative visual-condition - a purely 2D-inductive visual signal generated by adding time-dependent noise to the masked video data. Finally, we introduce a novel visual-conditional 3D generation framework by integrating See3D into a warping-based pipeline for high-fidelity 3D generation. Our numerical and visual comparisons on single and sparse reconstruction benchmarks show that See3D, trained on cost-effective and scalable video data, achieves notable zero-shot and open-world generation capabilities, markedly outperforming models trained on costly and constrained 3D datasets. Please refer to our project page at: https://vision.baai.ac.cn/see3d

Summary

AI-Generated Summary

PDF133December 10, 2024