ChatPaper.aiChatPaper

Sobre a Robustez da Orientação por Linguagem para Tarefas de Visão de Baixo Nível: Descobertas na Estimativa de Profundidade

On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation

April 12, 2024
Autores: Agneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang
cs.AI

Resumo

Avanços recentes na estimativa de profundidade monocular têm sido alcançados ao incorporar a linguagem natural como uma orientação adicional. Embora tenham gerado resultados impressionantes, o impacto do prior de linguagem, particularmente em termos de generalização e robustez, permanece inexplorado. Neste artigo, abordamos essa lacuna ao quantificar o impacto desse prior e introduzimos métodos para avaliar sua eficácia em várias configurações. Geramos frases de "baixo nível" que transmitem relações espaciais tridimensionais centradas em objetos, as incorporamos como priors de linguagem adicionais e avaliamos seu impacto subsequente na estimativa de profundidade. Nossa principal descoberta é que os estimadores de profundidade guiados por linguagem atuais têm desempenho ideal apenas com descrições em nível de cena e, de forma contraintuitiva, apresentam pior desempenho com descrições de baixo nível. Apesar de aproveitarem dados adicionais, esses métodos não são robustos a ataques adversariais direcionados e apresentam queda de desempenho com o aumento da mudança de distribuição. Por fim, para fornecer uma base para pesquisas futuras, identificamos pontos de falha e oferecemos insights para melhor compreender essas deficiências. Com o crescente número de métodos que utilizam linguagem para estimativa de profundidade, nossas descobertas destacam as oportunidades e armadilhas que exigem consideração cuidadosa para uma implantação eficaz em cenários do mundo real.
English
Recent advances in monocular depth estimation have been made by incorporating natural language as additional guidance. Although yielding impressive results, the impact of the language prior, particularly in terms of generalization and robustness, remains unexplored. In this paper, we address this gap by quantifying the impact of this prior and introduce methods to benchmark its effectiveness across various settings. We generate "low-level" sentences that convey object-centric, three-dimensional spatial relationships, incorporate them as additional language priors and evaluate their downstream impact on depth estimation. Our key finding is that current language-guided depth estimators perform optimally only with scene-level descriptions and counter-intuitively fare worse with low level descriptions. Despite leveraging additional data, these methods are not robust to directed adversarial attacks and decline in performance with an increase in distribution shift. Finally, to provide a foundation for future research, we identify points of failures and offer insights to better understand these shortcomings. With an increasing number of methods using language for depth estimation, our findings highlight the opportunities and pitfalls that require careful consideration for effective deployment in real-world settings
PDF120December 15, 2024