DORSal: Difusión para Representaciones de Escenas Centradas en Objetos et al.

Resumen

Los recientes avances en la comprensión de escenas 3D permiten el aprendizaje escalable de representaciones en grandes conjuntos de datos de escenas diversas. Como consecuencia, ahora es posible generalizar a escenas y objetos no vistos, renderizar nuevas vistas a partir de una sola o un puñado de imágenes de entrada, y generar escenas controlables que admiten ediciones. Sin embargo, el entrenamiento conjunto en un gran número de escenas suele comprometer la calidad de renderizado en comparación con modelos optimizados para una sola escena, como los NeRFs. En este artículo, aprovechamos los recientes avances en modelos de difusión para dotar a los modelos de aprendizaje de representación de escenas 3D con la capacidad de renderizar vistas novedosas de alta fidelidad, manteniendo en gran medida beneficios como la edición de escenas a nivel de objetos. En particular, proponemos DORSal, que adapta una arquitectura de difusión de vídeo para la generación de escenas 3D condicionada en representaciones basadas en slots centrados en objetos. Tanto en escenas sintéticas complejas con múltiples objetos como en el conjunto de datos a gran escala del mundo real Street View, demostramos que DORSal permite el renderizado neural escalable de escenas 3D con edición a nivel de objeto y supera a los enfoques existentes.

English

Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches.

DORSal: Difusión para Representaciones de Escenas Centradas en Objetos et al.

DORSal: Diffusion for Object-centric Representations of Scenes et al.

Resumen

Support