DORSal: Difusión para Representaciones de Escenas Centradas en Objetos et al.
DORSal: Diffusion for Object-centric Representations of Scenes et al.
June 13, 2023
Autores: Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf
cs.AI
Resumen
Los recientes avances en la comprensión de escenas 3D permiten el aprendizaje escalable de representaciones en grandes conjuntos de datos de escenas diversas. Como consecuencia, ahora es posible generalizar a escenas y objetos no vistos, renderizar nuevas vistas a partir de una sola o un puñado de imágenes de entrada, y generar escenas controlables que admiten ediciones. Sin embargo, el entrenamiento conjunto en un gran número de escenas suele comprometer la calidad de renderizado en comparación con modelos optimizados para una sola escena, como los NeRFs. En este artículo, aprovechamos los recientes avances en modelos de difusión para dotar a los modelos de aprendizaje de representación de escenas 3D con la capacidad de renderizar vistas novedosas de alta fidelidad, manteniendo en gran medida beneficios como la edición de escenas a nivel de objetos. En particular, proponemos DORSal, que adapta una arquitectura de difusión de vídeo para la generación de escenas 3D condicionada en representaciones basadas en slots centrados en objetos. Tanto en escenas sintéticas complejas con múltiples objetos como en el conjunto de datos a gran escala del mundo real Street View, demostramos que DORSal permite el renderizado neural escalable de escenas 3D con edición a nivel de objeto y supera a los enfoques existentes.
English
Recent progress in 3D scene understanding enables scalable learning of
representations across large datasets of diverse scenes. As a consequence,
generalization to unseen scenes and objects, rendering novel views from just a
single or a handful of input images, and controllable scene generation that
supports editing, is now possible. However, training jointly on a large number
of scenes typically compromises rendering quality when compared to single-scene
optimized models such as NeRFs. In this paper, we leverage recent progress in
diffusion models to equip 3D scene representation learning models with the
ability to render high-fidelity novel views, while retaining benefits such as
object-level scene editing to a large degree. In particular, we propose DORSal,
which adapts a video diffusion architecture for 3D scene generation conditioned
on object-centric slot-based representations of scenes. On both complex
synthetic multi-object scenes and on the real-world large-scale Street View
dataset, we show that DORSal enables scalable neural rendering of 3D scenes
with object-level editing and improves upon existing approaches.