Hintergrund-Prompting für verbesserte Objekttiefe
Background Prompting for Improved Object Depth
June 8, 2023
Autoren: Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani
cs.AI
Zusammenfassung
Die Schätzung der Tiefe von Objekten aus einem einzelnen Bild ist eine wertvolle Aufgabe für viele Anwendungen in der Bildverarbeitung, Robotik und Grafik. Aktuelle Methoden scheitern jedoch oft daran, präzise Tiefeninformationen für Objekte in vielfältigen Szenen zu liefern. In dieser Arbeit schlagen wir eine einfache, aber effektive Strategie namens Background Prompting vor, die das Eingabebild eines Objekts mit einem gelernten Hintergrund anpasst. Wir lernen die Hintergrund-Prompts ausschließlich anhand von kleinen synthetischen Objektdatensätzen. Um die Objekttiefe in einem realen Bild zu ermitteln, platzieren wir das segmentierte Objekt in den gelernten Hintergrund-Prompt und verwenden vorhandene Tiefenschätzungsnetzwerke. Background Prompting hilft den Tiefennetzwerken, sich auf das Vordergrundobjekt zu konzentrieren, da sie unempfindlich gegenüber Hintergrundvariationen gemacht werden. Darüber hinaus minimiert Background Prompting die Domänenlücke zwischen synthetischen und realen Objektbildern, was zu einer besseren Sim2Real-Generalisierung führt als einfaches Feinabstimmen. Ergebnisse auf mehreren synthetischen und realen Datensätzen zeigen konsistente Verbesserungen bei der Tiefenschätzung realer Objekte für eine Vielzahl bestehender Tiefennetzwerke. Code und optimierte Hintergrund-Prompts sind verfügbar unter: https://mbaradad.github.io/depth_prompt.
English
Estimating the depth of objects from a single image is a valuable task for
many vision, robotics, and graphics applications. However, current methods
often fail to produce accurate depth for objects in diverse scenes. In this
work, we propose a simple yet effective Background Prompting strategy that
adapts the input object image with a learned background. We learn the
background prompts only using small-scale synthetic object datasets. To infer
object depth on a real image, we place the segmented object into the learned
background prompt and run off-the-shelf depth networks. Background Prompting
helps the depth networks focus on the foreground object, as they are made
invariant to background variations. Moreover, Background Prompting minimizes
the domain gap between synthetic and real object images, leading to better
sim2real generalization than simple finetuning. Results on multiple synthetic
and real datasets demonstrate consistent improvements in real object depths for
a variety of existing depth networks. Code and optimized background prompts can
be found at: https://mbaradad.github.io/depth_prompt.