Differentiable Blocks World: Kwalitatieve 3D-decompositie door het renderen van primitieven
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives
July 11, 2023
Auteurs: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI
Samenvatting
Gegeven een set gekalibreerde afbeeldingen van een scène, presenteren we een aanpak die een eenvoudige, compacte en bruikbare 3D-wereldrepresentatie produceert door middel van 3D-primitieven. Terwijl veel benaderingen zich richten op het herstellen van hoogwaardige 3D-scènes, richten wij ons op het ontleden van een scène in mid-level 3D-representaties die bestaan uit een kleine set getextureerde primitieven. Dergelijke representaties zijn interpreteerbaar, eenvoudig te manipuleren en geschikt voor op fysica gebaseerde simulaties. Bovendien, in tegenstelling tot bestaande methoden voor primitieve decompositie die afhankelijk zijn van 3D-invoergegevens, werkt onze aanpak direct op afbeeldingen via differentieerbaar renderen. Specifiek modelleren we primitieven als getextureerde superquadrische meshes en optimaliseren we hun parameters vanaf nul met een verliesfunctie voor beeldrenderen. We benadrukken het belang van het modelleren van transparantie voor elke primitief, wat cruciaal is voor optimalisatie en ook het hanteren van een variabel aantal primitieven mogelijk maakt. We laten zien dat de resulterende getextureerde primitieven de invoerafbeeldingen getrouw reconstrueren en de zichtbare 3D-punten nauwkeurig modelleren, terwijl ze amodale vormvoltooiingen bieden van onzichtbare objectregio's. We vergelijken onze aanpak met de state-of-the-art op diverse scènes van DTU en demonstreren de robuustheid ervan op real-life opnames van BlendedMVS en Nerfstudio. We laten ook zien hoe onze resultaten kunnen worden gebruikt om moeiteloos een scène te bewerken of fysische simulaties uit te voeren. Code en videoresultaten zijn beschikbaar op https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that
produces a simple, compact, and actionable 3D world representation by means of
3D primitives. While many approaches focus on recovering high-fidelity 3D
scenes, we focus on parsing a scene into mid-level 3D representations made of a
small set of textured primitives. Such representations are interpretable, easy
to manipulate and suited for physics-based simulations. Moreover, unlike
existing primitive decomposition methods that rely on 3D input data, our
approach operates directly on images through differentiable rendering.
Specifically, we model primitives as textured superquadric meshes and optimize
their parameters from scratch with an image rendering loss. We highlight the
importance of modeling transparency for each primitive, which is critical for
optimization and also enables handling varying numbers of primitives. We show
that the resulting textured primitives faithfully reconstruct the input images
and accurately model the visible 3D points, while providing amodal shape
completions of unseen object regions. We compare our approach to the state of
the art on diverse scenes from DTU, and demonstrate its robustness on real-life
captures from BlendedMVS and Nerfstudio. We also showcase how our results can
be used to effortlessly edit a scene or perform physical simulations. Code and
video results are available at https://www.tmonnier.com/DBW .