SViM3D: Difusão Estável de Materiais em Vídeo para Geração 3D a partir de uma Única Imagem
SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
October 9, 2025
Autores: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI
Resumo
Apresentamos o Stable Video Materials 3D (SViM3D), um framework para prever materiais de renderização baseada em física (PBR) consistentes em múltiplas visões, a partir de uma única imagem. Recentemente, modelos de difusão de vídeo têm sido utilizados com sucesso para reconstruir objetos 3D de forma eficiente a partir de uma única imagem. No entanto, a reflectância ainda é representada por modelos de materiais simples ou precisa ser estimada em etapas adicionais para permitir a reiluminação e edições controladas de aparência. Estendemos um modelo de difusão de vídeo latente para gerar parâmetros PBR variáveis espacialmente e normais de superfície em conjunto com cada visão gerada, com base em controle explícito de câmera. Essa configuração única permite a reiluminação e a geração de um ativo 3D utilizando nosso modelo como prior neural. Introduzimos diversos mecanismos nesse pipeline que melhoram a qualidade nesse cenário mal-posto. Demonstramos desempenho de ponta em reiluminação e síntese de novas visões em múltiplos conjuntos de dados centrados em objetos. Nosso método generaliza para diversas entradas, permitindo a geração de ativos 3D reilumináveis úteis em AR/VR, filmes, jogos e outras mídias visuais.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict
multi-view consistent physically based rendering (PBR) materials, given a
single image. Recently, video diffusion models have been successfully used to
reconstruct 3D objects from a single image efficiently. However, reflectance is
still represented by simple material models or needs to be estimated in
additional steps to enable relighting and controlled appearance edits. We
extend a latent video diffusion model to output spatially varying PBR
parameters and surface normals jointly with each generated view based on
explicit camera control. This unique setup allows for relighting and generating
a 3D asset using our model as neural prior. We introduce various mechanisms to
this pipeline that improve quality in this ill-posed setting. We show
state-of-the-art relighting and novel view synthesis performance on multiple
object-centric datasets. Our method generalizes to diverse inputs, enabling the
generation of relightable 3D assets useful in AR/VR, movies, games and other
visual media.