Prompting de Fundo para Melhoria da Profundidade de Objetos

Resumo

Estimar a profundidade de objetos a partir de uma única imagem é uma tarefa valiosa para muitas aplicações de visão computacional, robótica e gráficos. No entanto, os métodos atuais frequentemente falham em produzir profundidades precisas para objetos em cenas diversas. Neste trabalho, propomos uma estratégia simples, porém eficaz, chamada Background Prompting, que adapta a imagem do objeto de entrada com um fundo aprendido. Aprendemos os prompts de fundo utilizando apenas pequenos conjuntos de dados sintéticos de objetos. Para inferir a profundidade do objeto em uma imagem real, posicionamos o objeto segmentado no prompt de fundo aprendido e executamos redes de profundidade prontas para uso. O Background Prompting ajuda as redes de profundidade a se concentrarem no objeto em primeiro plano, pois elas são tornadas invariantes a variações de fundo. Além disso, o Background Prompting minimiza a lacuna de domínio entre imagens sintéticas e reais de objetos, levando a uma melhor generalização sim2real do que uma simples ajuste fino. Resultados em múltiplos conjuntos de dados sintéticos e reais demonstram melhorias consistentes nas profundidades de objetos reais para uma variedade de redes de profundidade existentes. O código e os prompts de fundo otimizados podem ser encontrados em: https://mbaradad.github.io/depth_prompt.

English

Estimating the depth of objects from a single image is a valuable task for many vision, robotics, and graphics applications. However, current methods often fail to produce accurate depth for objects in diverse scenes. In this work, we propose a simple yet effective Background Prompting strategy that adapts the input object image with a learned background. We learn the background prompts only using small-scale synthetic object datasets. To infer object depth on a real image, we place the segmented object into the learned background prompt and run off-the-shelf depth networks. Background Prompting helps the depth networks focus on the foreground object, as they are made invariant to background variations. Moreover, Background Prompting minimizes the domain gap between synthetic and real object images, leading to better sim2real generalization than simple finetuning. Results on multiple synthetic and real datasets demonstrate consistent improvements in real object depths for a variety of existing depth networks. Code and optimized background prompts can be found at: https://mbaradad.github.io/depth_prompt.

Prompting de Fundo para Melhoria da Profundidade de Objetos

Background Prompting for Improved Object Depth

Resumo

Support