ChatPaper.aiChatPaper

SViM3D : Diffusion stable de matériaux vidéo pour la génération 3D à partir d'une seule image

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

October 9, 2025
papers.authors: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI

papers.abstract

Nous présentons Stable Video Materials 3D (SViM3D), un cadre permettant de prédire des matériaux de rendu physiquement réalistes (PBR) cohérents en multi-vues à partir d'une seule image. Récemment, les modèles de diffusion vidéo ont été utilisés avec succès pour reconstruire efficacement des objets 3D à partir d'une seule image. Cependant, la réflectance est encore représentée par des modèles de matériaux simples ou doit être estimée dans des étapes supplémentaires pour permettre un rééclairage et des modifications contrôlées de l'apparence. Nous étendons un modèle de diffusion vidéo latent pour produire des paramètres PBR variant spatialement et des normales de surface conjointement avec chaque vue générée, en se basant sur un contrôle explicite de la caméra. Cette configuration unique permet un rééclairage et la génération d'un actif 3D en utilisant notre modèle comme prior neuronal. Nous introduisons divers mécanismes dans ce pipeline qui améliorent la qualité dans ce cadre mal posé. Nous démontrons des performances de pointe en rééclairage et en synthèse de nouvelles vues sur plusieurs ensembles de données centrés sur des objets. Notre méthode se généralise à des entrées diverses, permettant la génération d'actifs 3D rééclairables utiles dans la réalité augmentée/virtuelle, les films, les jeux et autres médias visuels.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict multi-view consistent physically based rendering (PBR) materials, given a single image. Recently, video diffusion models have been successfully used to reconstruct 3D objects from a single image efficiently. However, reflectance is still represented by simple material models or needs to be estimated in additional steps to enable relighting and controlled appearance edits. We extend a latent video diffusion model to output spatially varying PBR parameters and surface normals jointly with each generated view based on explicit camera control. This unique setup allows for relighting and generating a 3D asset using our model as neural prior. We introduce various mechanisms to this pipeline that improve quality in this ill-posed setting. We show state-of-the-art relighting and novel view synthesis performance on multiple object-centric datasets. Our method generalizes to diverse inputs, enabling the generation of relightable 3D assets useful in AR/VR, movies, games and other visual media.
PDF12October 10, 2025