DORSal: Difusão para Representações Centradas em Objetos de Cenas et al.
DORSal: Diffusion for Object-centric Representations of Scenes et al.
June 13, 2023
Autores: Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf
cs.AI
Resumo
Os avanços recentes na compreensão de cenas 3D permitem o aprendizado escalável de representações em grandes conjuntos de dados de cenas diversas. Como consequência, a generalização para cenas e objetos não vistos, a renderização de novas perspectivas a partir de apenas uma ou poucas imagens de entrada, e a geração controlável de cenas que suportam edição, agora são possíveis. No entanto, o treinamento conjunto em um grande número de cenas geralmente compromete a qualidade de renderização quando comparado a modelos otimizados para cena única, como os NeRFs. Neste artigo, aproveitamos os avanços recentes em modelos de difusão para equipar modelos de aprendizado de representação de cenas 3D com a capacidade de renderizar novas perspectivas de alta fidelidade, mantendo, em grande medida, benefícios como a edição de cenas em nível de objeto. Em particular, propomos o DORSal, que adapta uma arquitetura de difusão de vídeo para a geração de cenas 3D condicionada a representações de cenas baseadas em slots centrados em objetos. Tanto em cenas sintéticas complexas com múltiplos objetos quanto no conjunto de dados de grande escala do Street View do mundo real, mostramos que o DORSal permite a renderização neural escalável de cenas 3D com edição em nível de objeto e supera as abordagens existentes.
English
Recent progress in 3D scene understanding enables scalable learning of
representations across large datasets of diverse scenes. As a consequence,
generalization to unseen scenes and objects, rendering novel views from just a
single or a handful of input images, and controllable scene generation that
supports editing, is now possible. However, training jointly on a large number
of scenes typically compromises rendering quality when compared to single-scene
optimized models such as NeRFs. In this paper, we leverage recent progress in
diffusion models to equip 3D scene representation learning models with the
ability to render high-fidelity novel views, while retaining benefits such as
object-level scene editing to a large degree. In particular, we propose DORSal,
which adapts a video diffusion architecture for 3D scene generation conditioned
on object-centric slot-based representations of scenes. On both complex
synthetic multi-object scenes and on the real-world large-scale Street View
dataset, we show that DORSal enables scalable neural rendering of 3D scenes
with object-level editing and improves upon existing approaches.