SViM3D: Stabiele Videomateriaal Diffusie voor 3D-generatie uit Enkele Afbeelding
SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
October 9, 2025
Auteurs: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI
Samenvatting
We presenteren Stable Video Materials 3D (SViM3D), een raamwerk voor het voorspellen van multi-view consistente, fysiek gebaseerde rendering (PBR) materialen, gegeven een enkele afbeelding. Recentelijk zijn videodiffusiemodellen met succes gebruikt om efficiënt 3D-objecten te reconstrueren vanuit een enkele afbeelding. Reflectie wordt echter nog steeds weergegeven door eenvoudige materiaalmodellen of moet in aanvullende stappen worden geschat om herbelichting en gecontroleerde uiterlijke aanpassingen mogelijk te maken. We breiden een latent videodiffusiemodel uit om ruimtelijk variërende PBR-parameters en oppervlaktenormalen samen met elke gegenereerde weergave te outputten, gebaseerd op expliciete camerabesturing. Deze unieke opzet maakt het mogelijk om een 3D-asset te herbelichten en te genereren door ons model als neurale prior te gebruiken. We introduceren verschillende mechanismen in deze pijplijn die de kwaliteit verbeteren in deze slecht gestelde setting. We tonen state-of-the-art prestaties in herbelichting en synthese van nieuwe weergaven op meerdere objectgerichte datasets. Onze methode generaliseert naar diverse inputs, waardoor het genereren van herbelichtbare 3D-assets mogelijk wordt die nuttig zijn in AR/VR, films, games en andere visuele media.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict
multi-view consistent physically based rendering (PBR) materials, given a
single image. Recently, video diffusion models have been successfully used to
reconstruct 3D objects from a single image efficiently. However, reflectance is
still represented by simple material models or needs to be estimated in
additional steps to enable relighting and controlled appearance edits. We
extend a latent video diffusion model to output spatially varying PBR
parameters and surface normals jointly with each generated view based on
explicit camera control. This unique setup allows for relighting and generating
a 3D asset using our model as neural prior. We introduce various mechanisms to
this pipeline that improve quality in this ill-posed setting. We show
state-of-the-art relighting and novel view synthesis performance on multiple
object-centric datasets. Our method generalizes to diverse inputs, enabling the
generation of relightable 3D assets useful in AR/VR, movies, games and other
visual media.