Фоновое промптирование для улучшения оценки глубины объектов
Background Prompting for Improved Object Depth
June 8, 2023
Авторы: Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani
cs.AI
Аннотация
Оценка глубины объектов по одному изображению является важной задачей для многих приложений в области компьютерного зрения, робототехники и графики. Однако современные методы часто не могут обеспечить точную оценку глубины для объектов в разнообразных сценах. В данной работе мы предлагаем простую, но эффективную стратегию Background Prompting, которая адаптирует входное изображение объекта с использованием изученного фона. Мы обучаем фоновые подсказки, используя только небольшие синтетические наборы данных объектов. Для оценки глубины объекта на реальном изображении мы помещаем сегментированный объект в изученную фоновую подсказку и применяем готовые сети для оценки глубины. Стратегия Background Prompting помогает сетям сосредоточиться на объекте переднего плана, делая их инвариантными к вариациям фона. Кроме того, Background Prompting минимизирует разрыв между синтетическими и реальными изображениями объектов, что приводит к лучшей обобщающей способности (sim2real) по сравнению с простым дообучением. Результаты на множестве синтетических и реальных наборов данных демонстрируют устойчивое улучшение оценки глубины реальных объектов для различных существующих сетей. Код и оптимизированные фоновые подсказки доступны по адресу: https://mbaradad.github.io/depth_prompt.
English
Estimating the depth of objects from a single image is a valuable task for
many vision, robotics, and graphics applications. However, current methods
often fail to produce accurate depth for objects in diverse scenes. In this
work, we propose a simple yet effective Background Prompting strategy that
adapts the input object image with a learned background. We learn the
background prompts only using small-scale synthetic object datasets. To infer
object depth on a real image, we place the segmented object into the learned
background prompt and run off-the-shelf depth networks. Background Prompting
helps the depth networks focus on the foreground object, as they are made
invariant to background variations. Moreover, Background Prompting minimizes
the domain gap between synthetic and real object images, leading to better
sim2real generalization than simple finetuning. Results on multiple synthetic
and real datasets demonstrate consistent improvements in real object depths for
a variety of existing depth networks. Code and optimized background prompts can
be found at: https://mbaradad.github.io/depth_prompt.