SViM3D: Стабильная диффузия видеоматериалов для генерации 3D из одного изображения
SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
October 9, 2025
Авторы: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani
cs.AI
Аннотация
Мы представляем Stable Video Materials 3D (SViM3D) — фреймворк для предсказания физически корректных (PBR) материалов с согласованностью по множеству видов на основе одного изображения. В последнее время модели диффузии видео успешно применялись для эффективной реконструкции 3D-объектов из одного изображения. Однако отражательная способность по-прежнему представляется с помощью простых моделей материалов или требует дополнительных шагов для оценки, чтобы обеспечить возможность переосвещения и контролируемого редактирования внешнего вида. Мы расширяем латентную модель диффузии видео для совместного вывода пространственно изменяющихся PBR-параметров и нормалей поверхности вместе с каждым сгенерированным видом на основе явного управления камерой. Эта уникальная настройка позволяет выполнять переосвещение и создавать 3D-ассет, используя нашу модель в качестве нейронного приора. Мы вводим различные механизмы в этот конвейер, которые повышают качество в этой плохо обусловленной задаче. Мы демонстрируем передовые результаты в переосвещении и синтезе новых видов на нескольких объектно-ориентированных наборах данных. Наш метод обобщается на разнообразные входные данные, что позволяет создавать переосвещаемые 3D-ассеты, полезные в AR/VR, кино, играх и других визуальных медиа.
English
We present Stable Video Materials 3D (SViM3D), a framework to predict
multi-view consistent physically based rendering (PBR) materials, given a
single image. Recently, video diffusion models have been successfully used to
reconstruct 3D objects from a single image efficiently. However, reflectance is
still represented by simple material models or needs to be estimated in
additional steps to enable relighting and controlled appearance edits. We
extend a latent video diffusion model to output spatially varying PBR
parameters and surface normals jointly with each generated view based on
explicit camera control. This unique setup allows for relighting and generating
a 3D asset using our model as neural prior. We introduce various mechanisms to
this pipeline that improve quality in this ill-posed setting. We show
state-of-the-art relighting and novel view synthesis performance on multiple
object-centric datasets. Our method generalizes to diverse inputs, enabling the
generation of relightable 3D assets useful in AR/VR, movies, games and other
visual media.