ChatPaper.aiChatPaper

SViM3D: Diffusione Stabile di Materiali Video per la Generazione 3D da Singola Immagine

SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

October 9, 2025
Autori: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI

Abstract

Presentiamo Stable Video Materials 3D (SViM3D), un framework per prevedere materiali basati sul rendering fisicamente realistico (PBR) coerenti su più viste, partendo da una singola immagine. Recentemente, i modelli di diffusione video sono stati utilizzati con successo per ricostruire oggetti 3D da una singola immagine in modo efficiente. Tuttavia, la riflettanza è ancora rappresentata da modelli di materiali semplici o deve essere stimata in passaggi aggiuntivi per consentire la rilluminazione e modifiche controllate dell'aspetto. Estendiamo un modello di diffusione video latente per produrre parametri PBR variabili spazialmente e normali di superficie insieme a ciascuna vista generata, basandoci su un controllo esplicito della telecamera. Questa configurazione unica consente la rilluminazione e la generazione di un asset 3D utilizzando il nostro modello come prior neurale. Introduciamo vari meccanismi in questa pipeline che migliorano la qualità in questo contesto mal posto. Mostriamo prestazioni all'avanguardia nella rilluminazione e nella sintesi di nuove viste su più dataset centrati sugli oggetti. Il nostro metodo si generalizza a input diversi, consentendo la generazione di asset 3D rilluminabili utili in AR/VR, film, giochi e altri media visivi.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict multi-view consistent physically based rendering (PBR) materials, given a single image. Recently, video diffusion models have been successfully used to reconstruct 3D objects from a single image efficiently. However, reflectance is still represented by simple material models or needs to be estimated in additional steps to enable relighting and controlled appearance edits. We extend a latent video diffusion model to output spatially varying PBR parameters and surface normals jointly with each generated view based on explicit camera control. This unique setup allows for relighting and generating a 3D asset using our model as neural prior. We introduce various mechanisms to this pipeline that improve quality in this ill-posed setting. We show state-of-the-art relighting and novel view synthesis performance on multiple object-centric datasets. Our method generalizes to diverse inputs, enabling the generation of relightable 3D assets useful in AR/VR, movies, games and other visual media.
PDF52October 10, 2025