ChatPaper.aiChatPaper

Дифференцируемый мир блоков: качественная 3D-декомпозиция через рендеринг примитивов

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives

July 11, 2023
Авторы: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI

Аннотация

Имея набор калиброванных изображений сцены, мы представляем подход, который создает простое, компактное и пригодное для использования 3D-представление мира с помощью 3D-примитивов. В то время как многие методы сосредоточены на восстановлении высококачественных 3D-сцен, мы фокусируемся на разбиении сцены на промежуточные 3D-представления, состоящие из небольшого набора текстурированных примитивов. Такие представления интерпретируемы, легко поддаются манипуляциям и подходят для физически корректных симуляций. Более того, в отличие от существующих методов декомпозиции на примитивы, которые полагаются на 3D-входные данные, наш подход работает непосредственно с изображениями через дифференцируемый рендеринг. В частности, мы моделируем примитивы как текстурированные суперквадрические сетки и оптимизируем их параметры с нуля с использованием функции потерь на основе рендеринга изображений. Мы подчеркиваем важность моделирования прозрачности для каждого примитива, что критически важно для оптимизации и также позволяет работать с переменным количеством примитивов. Мы показываем, что полученные текстурированные примитивы точно восстанавливают входные изображения и корректно моделируют видимые 3D-точки, одновременно предоставляя амодальное завершение формы для невидимых областей объектов. Мы сравниваем наш подход с современными методами на разнообразных сценах из DTU и демонстрируем его устойчивость на реальных данных из BlendedMVS и Nerfstudio. Мы также показываем, как наши результаты могут быть использованы для легкого редактирования сцены или выполнения физических симуляций. Код и видеорезультаты доступны по адресу https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that produces a simple, compact, and actionable 3D world representation by means of 3D primitives. While many approaches focus on recovering high-fidelity 3D scenes, we focus on parsing a scene into mid-level 3D representations made of a small set of textured primitives. Such representations are interpretable, easy to manipulate and suited for physics-based simulations. Moreover, unlike existing primitive decomposition methods that rely on 3D input data, our approach operates directly on images through differentiable rendering. Specifically, we model primitives as textured superquadric meshes and optimize their parameters from scratch with an image rendering loss. We highlight the importance of modeling transparency for each primitive, which is critical for optimization and also enables handling varying numbers of primitives. We show that the resulting textured primitives faithfully reconstruct the input images and accurately model the visible 3D points, while providing amodal shape completions of unseen object regions. We compare our approach to the state of the art on diverse scenes from DTU, and demonstrate its robustness on real-life captures from BlendedMVS and Nerfstudio. We also showcase how our results can be used to effortlessly edit a scene or perform physical simulations. Code and video results are available at https://www.tmonnier.com/DBW .
PDF130December 15, 2024