Monde des Blocs Différentiable : Décomposition Qualitative 3D par Rendu de Primitives
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives
July 11, 2023
Auteurs: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI
Résumé
Étant donné un ensemble d'images calibrées d'une scène, nous présentons une approche qui produit une représentation 3D du monde simple, compacte et actionnable au moyen de primitives 3D. Alors que de nombreuses approches se concentrent sur la reconstruction de scènes 3D haute fidélité, nous nous focalisons sur la décomposition d'une scène en représentations 3D de niveau intermédiaire constituées d'un petit ensemble de primitives texturées. Ces représentations sont interprétables, faciles à manipuler et adaptées aux simulations basées sur la physique. De plus, contrairement aux méthodes existantes de décomposition en primitives qui s'appuient sur des données 3D en entrée, notre approche opère directement sur les images via un rendu différentiable. Plus précisément, nous modélisons les primitives sous forme de maillages superquadriques texturés et optimisons leurs paramètres à partir de zéro avec une fonction de perte basée sur le rendu d'images. Nous soulignons l'importance de modéliser la transparence pour chaque primitive, ce qui est crucial pour l'optimisation et permet également de gérer un nombre variable de primitives. Nous montrons que les primitives texturées résultantes reconstruisent fidèlement les images d'entrée et modélisent avec précision les points 3D visibles, tout en fournissant des complétions de forme amodale pour les régions d'objets non visibles. Nous comparons notre approche à l'état de l'art sur diverses scènes de DTU, et démontrons sa robustesse sur des captures réelles issues de BlendedMVS et Nerfstudio. Nous illustrons également comment nos résultats peuvent être utilisés pour éditer une scène sans effort ou effectuer des simulations physiques. Le code et les résultats vidéo sont disponibles à l'adresse https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that
produces a simple, compact, and actionable 3D world representation by means of
3D primitives. While many approaches focus on recovering high-fidelity 3D
scenes, we focus on parsing a scene into mid-level 3D representations made of a
small set of textured primitives. Such representations are interpretable, easy
to manipulate and suited for physics-based simulations. Moreover, unlike
existing primitive decomposition methods that rely on 3D input data, our
approach operates directly on images through differentiable rendering.
Specifically, we model primitives as textured superquadric meshes and optimize
their parameters from scratch with an image rendering loss. We highlight the
importance of modeling transparency for each primitive, which is critical for
optimization and also enables handling varying numbers of primitives. We show
that the resulting textured primitives faithfully reconstruct the input images
and accurately model the visible 3D points, while providing amodal shape
completions of unseen object regions. We compare our approach to the state of
the art on diverse scenes from DTU, and demonstrate its robustness on real-life
captures from BlendedMVS and Nerfstudio. We also showcase how our results can
be used to effortlessly edit a scene or perform physical simulations. Code and
video results are available at https://www.tmonnier.com/DBW .