Achtergrondprompting voor Verbeterde Objectdiepte
Background Prompting for Improved Object Depth
June 8, 2023
Auteurs: Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani
cs.AI
Samenvatting
Het schatten van de diepte van objecten vanuit een enkele afbeelding is een waardevolle taak voor veel visuele, robotica- en grafische toepassingen. Huidige methoden slagen er echter vaak niet in om nauwkeurige diepteschattingen te produceren voor objecten in diverse scènes. In dit werk stellen we een eenvoudige maar effectieve strategie voor, genaamd Background Prompting, die de invoerafbeelding van het object aanpast met een aangeleerde achtergrond. We leren de achtergrondprompts uitsluitend met behulp van kleinschalige synthetische objectdatasets. Om de objectdiepte op een echte afbeelding te bepalen, plaatsen we het gesegmenteerde object in de aangeleerde achtergrondprompt en voeren we standaard dieptenetwerken uit. Background Prompting helpt de dieptenetwerken zich te concentreren op het voorgrondobject, doordat ze ongevoelig worden gemaakt voor variaties in de achtergrond. Bovendien minimaliseert Background Prompting de domeinkloof tussen synthetische en echte objectafbeeldingen, wat leidt tot een betere sim2real-generalizatie dan eenvoudige finetuning. Resultaten op meerdere synthetische en echte datasets tonen consistente verbeteringen in de geschatte dieptes van echte objecten voor een verscheidenheid aan bestaande dieptenetwerken. Code en geoptimaliseerde achtergrondprompts zijn te vinden op: https://mbaradad.github.io/depth_prompt.
English
Estimating the depth of objects from a single image is a valuable task for
many vision, robotics, and graphics applications. However, current methods
often fail to produce accurate depth for objects in diverse scenes. In this
work, we propose a simple yet effective Background Prompting strategy that
adapts the input object image with a learned background. We learn the
background prompts only using small-scale synthetic object datasets. To infer
object depth on a real image, we place the segmented object into the learned
background prompt and run off-the-shelf depth networks. Background Prompting
helps the depth networks focus on the foreground object, as they are made
invariant to background variations. Moreover, Background Prompting minimizes
the domain gap between synthetic and real object images, leading to better
sim2real generalization than simple finetuning. Results on multiple synthetic
and real datasets demonstrate consistent improvements in real object depths for
a variety of existing depth networks. Code and optimized background prompts can
be found at: https://mbaradad.github.io/depth_prompt.