Дифференцируемый мир блоков: качественная 3D-декомпозиция через рендеринг примитивов
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives
July 11, 2023
Авторы: Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry
cs.AI
Аннотация
Имея набор калиброванных изображений сцены, мы представляем подход, который создает простое, компактное и пригодное для использования 3D-представление мира с помощью 3D-примитивов. В то время как многие методы сосредоточены на восстановлении высококачественных 3D-сцен, мы фокусируемся на разбиении сцены на промежуточные 3D-представления, состоящие из небольшого набора текстурированных примитивов. Такие представления интерпретируемы, легко поддаются манипуляциям и подходят для физически корректных симуляций. Более того, в отличие от существующих методов декомпозиции на примитивы, которые полагаются на 3D-входные данные, наш подход работает непосредственно с изображениями через дифференцируемый рендеринг. В частности, мы моделируем примитивы как текстурированные суперквадрические сетки и оптимизируем их параметры с нуля с использованием функции потерь на основе рендеринга изображений. Мы подчеркиваем важность моделирования прозрачности для каждого примитива, что критически важно для оптимизации и также позволяет работать с переменным количеством примитивов. Мы показываем, что полученные текстурированные примитивы точно восстанавливают входные изображения и корректно моделируют видимые 3D-точки, одновременно предоставляя амодальное завершение формы для невидимых областей объектов. Мы сравниваем наш подход с современными методами на разнообразных сценах из DTU и демонстрируем его устойчивость на реальных данных из BlendedMVS и Nerfstudio. Мы также показываем, как наши результаты могут быть использованы для легкого редактирования сцены или выполнения физических симуляций. Код и видеорезультаты доступны по адресу https://www.tmonnier.com/DBW.
English
Given a set of calibrated images of a scene, we present an approach that
produces a simple, compact, and actionable 3D world representation by means of
3D primitives. While many approaches focus on recovering high-fidelity 3D
scenes, we focus on parsing a scene into mid-level 3D representations made of a
small set of textured primitives. Such representations are interpretable, easy
to manipulate and suited for physics-based simulations. Moreover, unlike
existing primitive decomposition methods that rely on 3D input data, our
approach operates directly on images through differentiable rendering.
Specifically, we model primitives as textured superquadric meshes and optimize
their parameters from scratch with an image rendering loss. We highlight the
importance of modeling transparency for each primitive, which is critical for
optimization and also enables handling varying numbers of primitives. We show
that the resulting textured primitives faithfully reconstruct the input images
and accurately model the visible 3D points, while providing amodal shape
completions of unseen object regions. We compare our approach to the state of
the art on diverse scenes from DTU, and demonstrate its robustness on real-life
captures from BlendedMVS and Nerfstudio. We also showcase how our results can
be used to effortlessly edit a scene or perform physical simulations. Code and
video results are available at https://www.tmonnier.com/DBW .