ChatPaper.aiChatPaper

AutoDecodificando Modelos de Difusión Latente en 3D

AutoDecoding Latent 3D Diffusion Models

July 7, 2023
Autores: Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
cs.AI

Resumen

Presentamos un enfoque novedoso para la generación de activos 3D estáticos y articulados que tiene como núcleo un autodecodificador 3D. El marco del autodecodificador 3D incorpora propiedades aprendidas del conjunto de datos objetivo en el espacio latente, el cual puede luego decodificarse en una representación volumétrica para renderizar apariencia y geometría consistentes en diferentes vistas. Identificamos el espacio latente volumétrico intermedio adecuado e introducimos operaciones robustas de normalización y desnormalización para aprender una difusión 3D a partir de imágenes 2D o videos monoculares de objetos rígidos o articulados. Nuestro enfoque es lo suficientemente flexible como para utilizar tanto supervisión de cámara existente como ningún tipo de información de cámara, aprendiéndola eficientemente durante el entrenamiento. Nuestras evaluaciones demuestran que los resultados de nuestra generación superan a las alternativas más avanzadas en varios conjuntos de datos de referencia y métricas, incluyendo conjuntos de datos de imágenes multi-vista de objetos sintéticos, videos reales en entornos naturales de personas en movimiento y un conjunto de datos de video a gran escala de objetos estáticos.
English
We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
PDF140December 15, 2024