Mundo de Bloques Diferenciable: Descomposición Cualitativa 3D mediante la Renderización de Primitivas

Resumen

Dado un conjunto de imágenes calibradas de una escena, presentamos un enfoque que produce una representación 3D del mundo simple, compacta y accionable mediante el uso de primitivas 3D. Mientras que muchos enfoques se centran en recuperar escenas 3D de alta fidelidad, nosotros nos enfocamos en analizar una escena en representaciones 3D de nivel medio compuestas por un pequeño conjunto de primitivas texturizadas. Dichas representaciones son interpretables, fáciles de manipular y adecuadas para simulaciones basadas en física. Además, a diferencia de los métodos existentes de descomposición en primitivas que dependen de datos de entrada 3D, nuestro enfoque opera directamente sobre imágenes a través de renderizado diferenciable. Específicamente, modelamos las primitivas como mallas de supercuádricas texturizadas y optimizamos sus parámetros desde cero con una pérdida de renderizado de imágenes. Destacamos la importancia de modelar la transparencia para cada primitiva, lo cual es crítico para la optimización y también permite manejar un número variable de primitivas. Demostramos que las primitivas texturizadas resultantes reconstruyen fielmente las imágenes de entrada y modelan con precisión los puntos 3D visibles, al mismo tiempo que proporcionan completaciones amodales de formas en regiones de objetos no vistas. Comparamos nuestro enfoque con el estado del arte en diversas escenas de DTU, y demostramos su robustez en capturas de la vida real de BlendedMVS y Nerfstudio. También mostramos cómo nuestros resultados pueden usarse para editar una escena sin esfuerzo o realizar simulaciones físicas. El código y los resultados en video están disponibles en https://www.tmonnier.com/DBW.

English

Given a set of calibrated images of a scene, we present an approach that produces a simple, compact, and actionable 3D world representation by means of 3D primitives. While many approaches focus on recovering high-fidelity 3D scenes, we focus on parsing a scene into mid-level 3D representations made of a small set of textured primitives. Such representations are interpretable, easy to manipulate and suited for physics-based simulations. Moreover, unlike existing primitive decomposition methods that rely on 3D input data, our approach operates directly on images through differentiable rendering. Specifically, we model primitives as textured superquadric meshes and optimize their parameters from scratch with an image rendering loss. We highlight the importance of modeling transparency for each primitive, which is critical for optimization and also enables handling varying numbers of primitives. We show that the resulting textured primitives faithfully reconstruct the input images and accurately model the visible 3D points, while providing amodal shape completions of unseen object regions. We compare our approach to the state of the art on diverse scenes from DTU, and demonstrate its robustness on real-life captures from BlendedMVS and Nerfstudio. We also showcase how our results can be used to effortlessly edit a scene or perform physical simulations. Code and video results are available at https://www.tmonnier.com/DBW .

Mundo de Bloques Diferenciable: Descomposición Cualitativa 3D mediante la Renderización de Primitivas

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives

Resumen

Support