ChatPaper.aiChatPaper

SViM3D: Difusión Estable de Material de Video para la Generación 3D a partir de una Imagen Única

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

October 9, 2025
Autores: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI

Resumen

Presentamos Stable Video Materials 3D (SViM3D), un marco para predecir materiales de renderizado basado en física (PBR) consistentes en múltiples vistas, a partir de una sola imagen. Recientemente, los modelos de difusión de video se han utilizado con éxito para reconstruir objetos 3D de manera eficiente a partir de una sola imagen. Sin embargo, la reflectancia sigue representándose mediante modelos de materiales simples o necesita estimarse en pasos adicionales para permitir la reiluminación y ediciones controladas de la apariencia. Extendemos un modelo de difusión de video latente para generar parámetros PBR espacialmente variables y normales de superficie junto con cada vista generada, basándonos en un control explícito de la cámara. Esta configuración única permite la reiluminación y la generación de un activo 3D utilizando nuestro modelo como prior neuronal. Introducimos varios mecanismos en esta canalización que mejoran la calidad en este escenario mal planteado. Demostramos un rendimiento de vanguardia en reiluminación y síntesis de nuevas vistas en múltiples conjuntos de datos centrados en objetos. Nuestro método se generaliza a diversas entradas, permitiendo la generación de activos 3D reiluminables útiles en realidad aumentada/realidad virtual (AR/VR), películas, videojuegos y otros medios visuales.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict multi-view consistent physically based rendering (PBR) materials, given a single image. Recently, video diffusion models have been successfully used to reconstruct 3D objects from a single image efficiently. However, reflectance is still represented by simple material models or needs to be estimated in additional steps to enable relighting and controlled appearance edits. We extend a latent video diffusion model to output spatially varying PBR parameters and surface normals jointly with each generated view based on explicit camera control. This unique setup allows for relighting and generating a 3D asset using our model as neural prior. We introduce various mechanisms to this pipeline that improve quality in this ill-posed setting. We show state-of-the-art relighting and novel view synthesis performance on multiple object-centric datasets. Our method generalizes to diverse inputs, enabling the generation of relightable 3D assets useful in AR/VR, movies, games and other visual media.
PDF12October 10, 2025