SViM3D: Difusión Estable de Material de Video para la Generación 3D a partir de una Imagen Única
SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
October 9, 2025
Autores: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI
Resumen
Presentamos Stable Video Materials 3D (SViM3D), un marco para predecir materiales de renderizado basado en física (PBR) consistentes en múltiples vistas, a partir de una sola imagen. Recientemente, los modelos de difusión de video se han utilizado con éxito para reconstruir objetos 3D de manera eficiente a partir de una sola imagen. Sin embargo, la reflectancia sigue representándose mediante modelos de materiales simples o necesita estimarse en pasos adicionales para permitir la reiluminación y ediciones controladas de la apariencia. Extendemos un modelo de difusión de video latente para generar parámetros PBR espacialmente variables y normales de superficie junto con cada vista generada, basándonos en un control explícito de la cámara. Esta configuración única permite la reiluminación y la generación de un activo 3D utilizando nuestro modelo como prior neuronal. Introducimos varios mecanismos en esta canalización que mejoran la calidad en este escenario mal planteado. Demostramos un rendimiento de vanguardia en reiluminación y síntesis de nuevas vistas en múltiples conjuntos de datos centrados en objetos. Nuestro método se generaliza a diversas entradas, permitiendo la generación de activos 3D reiluminables útiles en realidad aumentada/realidad virtual (AR/VR), películas, videojuegos y otros medios visuales.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict
multi-view consistent physically based rendering (PBR) materials, given a
single image. Recently, video diffusion models have been successfully used to
reconstruct 3D objects from a single image efficiently. However, reflectance is
still represented by simple material models or needs to be estimated in
additional steps to enable relighting and controlled appearance edits. We
extend a latent video diffusion model to output spatially varying PBR
parameters and surface normals jointly with each generated view based on
explicit camera control. This unique setup allows for relighting and generating
a 3D asset using our model as neural prior. We introduce various mechanisms to
this pipeline that improve quality in this ill-posed setting. We show
state-of-the-art relighting and novel view synthesis performance on multiple
object-centric datasets. Our method generalizes to diverse inputs, enabling the
generation of relightable 3D assets useful in AR/VR, movies, games and other
visual media.