DORSal: Diffusione per Rappresentazioni Sceniche Centrate sugli Oggetti et al.
DORSal: Diffusion for Object-centric Representations of Scenes et al.
June 13, 2023
Autori: Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf
cs.AI
Abstract
I recenti progressi nella comprensione delle scene 3D consentono l'apprendimento scalabile di rappresentazioni su grandi dataset di scene diverse. Di conseguenza, è ora possibile generalizzare a scene e oggetti non visti, generare nuove visualizzazioni a partire da una singola o da un numero limitato di immagini di input, e realizzare una generazione controllata di scene che supporta l'editing. Tuttavia, l'addestramento congiunto su un gran numero di scene tipicamente compromette la qualità del rendering rispetto a modelli ottimizzati per singole scene, come i NeRF. In questo articolo, sfruttiamo i recenti progressi nei modelli di diffusione per dotare i modelli di apprendimento delle rappresentazioni di scene 3D della capacità di generare nuove visualizzazioni ad alta fedeltà, mantenendo al contempo vantaggi come l'editing a livello di oggetto in larga misura. In particolare, proponiamo DORSal, che adatta un'architettura di diffusione video per la generazione di scene 3D condizionata da rappresentazioni di scene basate su slot centrati sugli oggetti. Su scene sintetiche complesse con più oggetti e sul dataset su larga scala del mondo reale Street View, dimostriamo che DORSal abilita il rendering neurale scalabile di scene 3D con editing a livello di oggetto e migliora rispetto agli approcci esistenti.
English
Recent progress in 3D scene understanding enables scalable learning of
representations across large datasets of diverse scenes. As a consequence,
generalization to unseen scenes and objects, rendering novel views from just a
single or a handful of input images, and controllable scene generation that
supports editing, is now possible. However, training jointly on a large number
of scenes typically compromises rendering quality when compared to single-scene
optimized models such as NeRFs. In this paper, we leverage recent progress in
diffusion models to equip 3D scene representation learning models with the
ability to render high-fidelity novel views, while retaining benefits such as
object-level scene editing to a large degree. In particular, we propose DORSal,
which adapts a video diffusion architecture for 3D scene generation conditioned
on object-centric slot-based representations of scenes. On both complex
synthetic multi-object scenes and on the real-world large-scale Street View
dataset, we show that DORSal enables scalable neural rendering of 3D scenes
with object-level editing and improves upon existing approaches.