Mundo de Bloques Diferenciable: Descomposición Cualitativa 3D mediante la Renderización de Primitivas
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives
July 11, 2023
Autores: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI
Resumen
Dado un conjunto de imágenes calibradas de una escena, presentamos un enfoque que produce una representación 3D del mundo simple, compacta y accionable mediante el uso de primitivas 3D. Mientras que muchos enfoques se centran en recuperar escenas 3D de alta fidelidad, nosotros nos enfocamos en analizar una escena en representaciones 3D de nivel medio compuestas por un pequeño conjunto de primitivas texturizadas. Dichas representaciones son interpretables, fáciles de manipular y adecuadas para simulaciones basadas en física. Además, a diferencia de los métodos existentes de descomposición en primitivas que dependen de datos de entrada 3D, nuestro enfoque opera directamente sobre imágenes a través de renderizado diferenciable. Específicamente, modelamos las primitivas como mallas de supercuádricas texturizadas y optimizamos sus parámetros desde cero con una pérdida de renderizado de imágenes. Destacamos la importancia de modelar la transparencia para cada primitiva, lo cual es crítico para la optimización y también permite manejar un número variable de primitivas. Demostramos que las primitivas texturizadas resultantes reconstruyen fielmente las imágenes de entrada y modelan con precisión los puntos 3D visibles, al mismo tiempo que proporcionan completaciones amodales de formas en regiones de objetos no vistas. Comparamos nuestro enfoque con el estado del arte en diversas escenas de DTU, y demostramos su robustez en capturas de la vida real de BlendedMVS y Nerfstudio. También mostramos cómo nuestros resultados pueden usarse para editar una escena sin esfuerzo o realizar simulaciones físicas. El código y los resultados en video están disponibles en https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that
produces a simple, compact, and actionable 3D world representation by means of
3D primitives. While many approaches focus on recovering high-fidelity 3D
scenes, we focus on parsing a scene into mid-level 3D representations made of a
small set of textured primitives. Such representations are interpretable, easy
to manipulate and suited for physics-based simulations. Moreover, unlike
existing primitive decomposition methods that rely on 3D input data, our
approach operates directly on images through differentiable rendering.
Specifically, we model primitives as textured superquadric meshes and optimize
their parameters from scratch with an image rendering loss. We highlight the
importance of modeling transparency for each primitive, which is critical for
optimization and also enables handling varying numbers of primitives. We show
that the resulting textured primitives faithfully reconstruct the input images
and accurately model the visible 3D points, while providing amodal shape
completions of unseen object regions. We compare our approach to the state of
the art on diverse scenes from DTU, and demonstrate its robustness on real-life
captures from BlendedMVS and Nerfstudio. We also showcase how our results can
be used to effortlessly edit a scene or perform physical simulations. Code and
video results are available at https://www.tmonnier.com/DBW .