ChatPaper.aiChatPaper

V3D: Los modelos de difusión de video son generadores 3D efectivos

V3D: Video Diffusion Models are Effective 3D Generators

March 11, 2024
Autores: Zilong Chen, Yikai Wang, Feng Wang, Zhengyi Wang, Huaping Liu
cs.AI

Resumen

La generación automática 3D ha atraído recientemente una atención generalizada. Los métodos recientes han acelerado significativamente la velocidad de generación, pero suelen producir objetos menos detallados debido a la capacidad limitada del modelo o a los datos 3D. Motivados por los avances recientes en los modelos de difusión de video, presentamos V3D, que aprovecha la capacidad de simulación del mundo de los modelos de difusión de video preentrenados para facilitar la generación 3D. Para liberar todo el potencial de la difusión de video para percibir el mundo 3D, introducimos además un prior de consistencia geométrica y extendemos el modelo de difusión de video a un generador 3D consistente en múltiples vistas. Gracias a esto, el modelo de difusión de video más avanzado podría ajustarse para generar marcos de órbita de 360 grados alrededor de un objeto dada una sola imagen. Con nuestras canalizaciones de reconstrucción personalizadas, podemos generar mallas de alta calidad o Gaussianas 3D en menos de 3 minutos. Además, nuestro método puede extenderse a la síntesis de nuevas vistas a nivel de escena, logrando un control preciso sobre la trayectoria de la cámara con vistas de entrada dispersas. Experimentos extensos demuestran el rendimiento superior del enfoque propuesto, especialmente en términos de calidad de generación y consistencia en múltiples vistas. Nuestro código está disponible en https://github.com/heheyas/V3D.
English
Automatic 3D generation has recently attracted widespread attention. Recent methods have greatly accelerated the generation speed, but usually produce less-detailed objects due to limited model capacity or 3D data. Motivated by recent advancements in video diffusion models, we introduce V3D, which leverages the world simulation capacity of pre-trained video diffusion models to facilitate 3D generation. To fully unleash the potential of video diffusion to perceive the 3D world, we further introduce geometrical consistency prior and extend the video diffusion model to a multi-view consistent 3D generator. Benefiting from this, the state-of-the-art video diffusion model could be fine-tuned to generate 360degree orbit frames surrounding an object given a single image. With our tailored reconstruction pipelines, we can generate high-quality meshes or 3D Gaussians within 3 minutes. Furthermore, our method can be extended to scene-level novel view synthesis, achieving precise control over the camera path with sparse input views. Extensive experiments demonstrate the superior performance of the proposed approach, especially in terms of generation quality and multi-view consistency. Our code is available at https://github.com/heheyas/V3D

Summary

AI-Generated Summary

PDF314December 15, 2024