ChatPaper.aiChatPaper

Differentiable Blocks World: Kwalitatieve 3D-decompositie door het renderen van primitieven

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives

July 11, 2023
Auteurs: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI

Samenvatting

Gegeven een set gekalibreerde afbeeldingen van een scène, presenteren we een aanpak die een eenvoudige, compacte en bruikbare 3D-wereldrepresentatie produceert door middel van 3D-primitieven. Terwijl veel benaderingen zich richten op het herstellen van hoogwaardige 3D-scènes, richten wij ons op het ontleden van een scène in mid-level 3D-representaties die bestaan uit een kleine set getextureerde primitieven. Dergelijke representaties zijn interpreteerbaar, eenvoudig te manipuleren en geschikt voor op fysica gebaseerde simulaties. Bovendien, in tegenstelling tot bestaande methoden voor primitieve decompositie die afhankelijk zijn van 3D-invoergegevens, werkt onze aanpak direct op afbeeldingen via differentieerbaar renderen. Specifiek modelleren we primitieven als getextureerde superquadrische meshes en optimaliseren we hun parameters vanaf nul met een verliesfunctie voor beeldrenderen. We benadrukken het belang van het modelleren van transparantie voor elke primitief, wat cruciaal is voor optimalisatie en ook het hanteren van een variabel aantal primitieven mogelijk maakt. We laten zien dat de resulterende getextureerde primitieven de invoerafbeeldingen getrouw reconstrueren en de zichtbare 3D-punten nauwkeurig modelleren, terwijl ze amodale vormvoltooiingen bieden van onzichtbare objectregio's. We vergelijken onze aanpak met de state-of-the-art op diverse scènes van DTU en demonstreren de robuustheid ervan op real-life opnames van BlendedMVS en Nerfstudio. We laten ook zien hoe onze resultaten kunnen worden gebruikt om moeiteloos een scène te bewerken of fysische simulaties uit te voeren. Code en videoresultaten zijn beschikbaar op https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that produces a simple, compact, and actionable 3D world representation by means of 3D primitives. While many approaches focus on recovering high-fidelity 3D scenes, we focus on parsing a scene into mid-level 3D representations made of a small set of textured primitives. Such representations are interpretable, easy to manipulate and suited for physics-based simulations. Moreover, unlike existing primitive decomposition methods that rely on 3D input data, our approach operates directly on images through differentiable rendering. Specifically, we model primitives as textured superquadric meshes and optimize their parameters from scratch with an image rendering loss. We highlight the importance of modeling transparency for each primitive, which is critical for optimization and also enables handling varying numbers of primitives. We show that the resulting textured primitives faithfully reconstruct the input images and accurately model the visible 3D points, while providing amodal shape completions of unseen object regions. We compare our approach to the state of the art on diverse scenes from DTU, and demonstrate its robustness on real-life captures from BlendedMVS and Nerfstudio. We also showcase how our results can be used to effortlessly edit a scene or perform physical simulations. Code and video results are available at https://www.tmonnier.com/DBW .
PDF130December 15, 2024