Sur la robustesse du guidage linguistique pour les tâches de vision de bas niveau : Résultats dans l'estimation de profondeur
On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation
April 12, 2024
papers.authors: Agneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang
cs.AI
papers.abstract
Les récents progrès en matière d'estimation de profondeur monoculaire ont été réalisés en intégrant le langage naturel comme guide supplémentaire. Bien que ces approches produisent des résultats impressionnants, l'impact du préalable linguistique, notamment en termes de généralisation et de robustesse, reste inexploré. Dans cet article, nous comblons cette lacune en quantifiant l'impact de ce préalable et en introduisant des méthodes pour évaluer son efficacité dans divers contextes. Nous générons des phrases "de bas niveau" qui expriment des relations spatiales tridimensionnelles centrées sur les objets, les intégrons comme préalables linguistiques supplémentaires et évaluons leur impact sur l'estimation de profondeur. Notre principale découverte est que les estimateurs de profondeur guidés par le langage actuels fonctionnent de manière optimale uniquement avec des descriptions au niveau de la scène et, contre-intuitivement, obtiennent de moins bons résultats avec des descriptions de bas niveau. Malgré l'exploitation de données supplémentaires, ces méthodes ne sont pas robustes aux attaques adversaires ciblées et voient leurs performances diminuer avec un accroissement du décalage de distribution. Enfin, pour poser les bases de recherches futures, nous identifions les points de défaillance et proposons des insights pour mieux comprendre ces lacunes. Avec un nombre croissant de méthodes utilisant le langage pour l'estimation de profondeur, nos résultats mettent en lumière les opportunités et les pièges qui nécessitent une attention particulière pour un déploiement efficace dans des contextes réels.
English
Recent advances in monocular depth estimation have been made by incorporating
natural language as additional guidance. Although yielding impressive results,
the impact of the language prior, particularly in terms of generalization and
robustness, remains unexplored. In this paper, we address this gap by
quantifying the impact of this prior and introduce methods to benchmark its
effectiveness across various settings. We generate "low-level" sentences that
convey object-centric, three-dimensional spatial relationships, incorporate
them as additional language priors and evaluate their downstream impact on
depth estimation. Our key finding is that current language-guided depth
estimators perform optimally only with scene-level descriptions and
counter-intuitively fare worse with low level descriptions. Despite leveraging
additional data, these methods are not robust to directed adversarial attacks
and decline in performance with an increase in distribution shift. Finally, to
provide a foundation for future research, we identify points of failures and
offer insights to better understand these shortcomings. With an increasing
number of methods using language for depth estimation, our findings highlight
the opportunities and pitfalls that require careful consideration for effective
deployment in real-world settings