DORSal: Difusão para Representações Centradas em Objetos de Cenas et al.

Resumo

Os avanços recentes na compreensão de cenas 3D permitem o aprendizado escalável de representações em grandes conjuntos de dados de cenas diversas. Como consequência, a generalização para cenas e objetos não vistos, a renderização de novas perspectivas a partir de apenas uma ou poucas imagens de entrada, e a geração controlável de cenas que suportam edição, agora são possíveis. No entanto, o treinamento conjunto em um grande número de cenas geralmente compromete a qualidade de renderização quando comparado a modelos otimizados para cena única, como os NeRFs. Neste artigo, aproveitamos os avanços recentes em modelos de difusão para equipar modelos de aprendizado de representação de cenas 3D com a capacidade de renderizar novas perspectivas de alta fidelidade, mantendo, em grande medida, benefícios como a edição de cenas em nível de objeto. Em particular, propomos o DORSal, que adapta uma arquitetura de difusão de vídeo para a geração de cenas 3D condicionada a representações de cenas baseadas em slots centrados em objetos. Tanto em cenas sintéticas complexas com múltiplos objetos quanto no conjunto de dados de grande escala do Street View do mundo real, mostramos que o DORSal permite a renderização neural escalável de cenas 3D com edição em nível de objeto e supera as abordagens existentes.

English

Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches.

DORSal: Difusão para Representações Centradas em Objetos de Cenas et al.

DORSal: Diffusion for Object-centric Representations of Scenes et al.

Resumo

Support