DORSal: Diffusione per Rappresentazioni Sceniche Centrate sugli Oggetti et al.

Abstract

I recenti progressi nella comprensione delle scene 3D consentono l'apprendimento scalabile di rappresentazioni su grandi dataset di scene diverse. Di conseguenza, è ora possibile generalizzare a scene e oggetti non visti, generare nuove visualizzazioni a partire da una singola o da un numero limitato di immagini di input, e realizzare una generazione controllata di scene che supporta l'editing. Tuttavia, l'addestramento congiunto su un gran numero di scene tipicamente compromette la qualità del rendering rispetto a modelli ottimizzati per singole scene, come i NeRF. In questo articolo, sfruttiamo i recenti progressi nei modelli di diffusione per dotare i modelli di apprendimento delle rappresentazioni di scene 3D della capacità di generare nuove visualizzazioni ad alta fedeltà, mantenendo al contempo vantaggi come l'editing a livello di oggetto in larga misura. In particolare, proponiamo DORSal, che adatta un'architettura di diffusione video per la generazione di scene 3D condizionata da rappresentazioni di scene basate su slot centrati sugli oggetti. Su scene sintetiche complesse con più oggetti e sul dataset su larga scala del mondo reale Street View, dimostriamo che DORSal abilita il rendering neurale scalabile di scene 3D con editing a livello di oggetto e migliora rispetto agli approcci esistenti.

English

Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches.

DORSal: Diffusione per Rappresentazioni Sceniche Centrate sugli Oggetti et al.

DORSal: Diffusion for Object-centric Representations of Scenes et al.

Abstract

Support