Prompting Contestuale per il Miglioramento della Profondità degli Oggetti
Background Prompting for Improved Object Depth
June 8, 2023
Autori: Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani
cs.AI
Abstract
Stimare la profondità degli oggetti da una singola immagine è un compito prezioso per molte applicazioni di visione, robotica e grafica. Tuttavia, i metodi attuali spesso non riescono a produrre una profondità accurata per oggetti in scene diverse. In questo lavoro, proponiamo una strategia semplice ma efficace chiamata Background Prompting, che adatta l'immagine dell'oggetto in input con uno sfondo appreso. Apprendiamo i prompt di sfondo utilizzando solo piccoli dataset sintetici di oggetti. Per inferire la profondità dell'oggetto su un'immagine reale, posizioniamo l'oggetto segmentato nel prompt di sfondo appreso e eseguiamo reti di profondità preesistenti. Il Background Prompting aiuta le reti di profondità a concentrarsi sull'oggetto in primo piano, rendendole invarianti alle variazioni dello sfondo. Inoltre, il Background Prompting riduce il divario di dominio tra immagini sintetiche e reali degli oggetti, portando a una migliore generalizzazione sim2real rispetto a un semplice fine-tuning. I risultati su più dataset sintetici e reali dimostrano miglioramenti consistenti nelle profondità reali degli oggetti per una varietà di reti di profondità esistenti. Il codice e i prompt di sfondo ottimizzati possono essere trovati all'indirizzo: https://mbaradad.github.io/depth_prompt.
English
Estimating the depth of objects from a single image is a valuable task for
many vision, robotics, and graphics applications. However, current methods
often fail to produce accurate depth for objects in diverse scenes. In this
work, we propose a simple yet effective Background Prompting strategy that
adapts the input object image with a learned background. We learn the
background prompts only using small-scale synthetic object datasets. To infer
object depth on a real image, we place the segmented object into the learned
background prompt and run off-the-shelf depth networks. Background Prompting
helps the depth networks focus on the foreground object, as they are made
invariant to background variations. Moreover, Background Prompting minimizes
the domain gap between synthetic and real object images, leading to better
sim2real generalization than simple finetuning. Results on multiple synthetic
and real datasets demonstrate consistent improvements in real object depths for
a variety of existing depth networks. Code and optimized background prompts can
be found at: https://mbaradad.github.io/depth_prompt.