ChatPaper.aiChatPaper

SViM3D: Stabile Videomaterial-Diffusion für die 3D-Generierung aus Einzelbildern

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

October 9, 2025
papers.authors: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI

papers.abstract

Wir präsentieren Stable Video Materials 3D (SViM3D), ein Framework zur Vorhersage von multi-view-konsistenten, physikalisch basierten Rendering (PBR)-Materialien basierend auf einem einzelnen Bild. Kürzlich wurden Video-Diffusionsmodelle erfolgreich eingesetzt, um 3D-Objekte effizient aus einem einzelnen Bild zu rekonstruieren. Allerdings wird die Reflektanz weiterhin durch einfache Materialmodelle dargestellt oder muss in zusätzlichen Schritten geschätzt werden, um Neubeleuchtung und kontrollierte Bearbeitung des Erscheinungsbilds zu ermöglichen. Wir erweitern ein latentes Video-Diffusionsmodell, um räumlich variierende PBR-Parameter und Oberflächennormalen gemeinsam mit jeder generierten Ansicht basierend auf expliziter Kamerasteuerung auszugeben. Diese einzigartige Konfiguration ermöglicht Neubeleuchtung und die Erzeugung eines 3D-Assets unter Verwendung unseres Modells als neuronale Prior. Wir führen verschiedene Mechanismen in diese Pipeline ein, die die Qualität in diesem schlecht gestellten Problem verbessern. Wir zeigen state-of-the-art Leistung in Neubeleuchtung und neuartiger Ansichtssynthese auf mehreren objektzentrierten Datensätzen. Unsere Methode verallgemeinert auf diverse Eingaben und ermöglicht die Erzeugung von neu beleuchtbaren 3D-Assets, die in AR/VR, Filmen, Spielen und anderen visuellen Medien nützlich sind.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict multi-view consistent physically based rendering (PBR) materials, given a single image. Recently, video diffusion models have been successfully used to reconstruct 3D objects from a single image efficiently. However, reflectance is still represented by simple material models or needs to be estimated in additional steps to enable relighting and controlled appearance edits. We extend a latent video diffusion model to output spatially varying PBR parameters and surface normals jointly with each generated view based on explicit camera control. This unique setup allows for relighting and generating a 3D asset using our model as neural prior. We introduce various mechanisms to this pipeline that improve quality in this ill-posed setting. We show state-of-the-art relighting and novel view synthesis performance on multiple object-centric datasets. Our method generalizes to diverse inputs, enabling the generation of relightable 3D assets useful in AR/VR, movies, games and other visual media.
PDF12October 10, 2025