低レベル視覚タスクにおける言語ガイダンスのロバスト性: 深度推定からの知見
On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation
April 12, 2024
著者: Agneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang
cs.AI
要旨
単眼深度推定の最近の進展は、自然言語を追加的なガイダンスとして組み込むことによってもたらされてきた。印象的な結果を生み出しているものの、特に一般化とロバスト性の観点から、言語事前情報の影響は未解明のままである。本論文では、このギャップを埋めるため、この事前情報の影響を定量化し、さまざまな設定での有効性をベンチマークする方法を提案する。我々は、物体中心の三次元的な空間関係を伝える「低レベル」な文を生成し、それらを追加的な言語事前情報として組み込み、深度推定への下流影響を評価する。我々の重要な発見は、現在の言語ガイド付き深度推定器が、シーンレベルの記述でのみ最適に機能し、低レベルの記述では逆に性能が低下するという点である。追加データを活用しているにもかかわらず、これらの手法は指向的な敵対的攻撃に対してロバストではなく、分布シフトの増加に伴って性能が低下する。最後に、今後の研究の基盤を提供するため、失敗点を特定し、これらの欠点をより深く理解するための洞察を提示する。深度推定に言語を利用する手法が増える中で、我々の知見は、実世界での効果的な展開に慎重な検討を要する機会と落とし穴を浮き彫りにする。
English
Recent advances in monocular depth estimation have been made by incorporating
natural language as additional guidance. Although yielding impressive results,
the impact of the language prior, particularly in terms of generalization and
robustness, remains unexplored. In this paper, we address this gap by
quantifying the impact of this prior and introduce methods to benchmark its
effectiveness across various settings. We generate "low-level" sentences that
convey object-centric, three-dimensional spatial relationships, incorporate
them as additional language priors and evaluate their downstream impact on
depth estimation. Our key finding is that current language-guided depth
estimators perform optimally only with scene-level descriptions and
counter-intuitively fare worse with low level descriptions. Despite leveraging
additional data, these methods are not robust to directed adversarial attacks
and decline in performance with an increase in distribution shift. Finally, to
provide a foundation for future research, we identify points of failures and
offer insights to better understand these shortcomings. With an increasing
number of methods using language for depth estimation, our findings highlight
the opportunities and pitfalls that require careful consideration for effective
deployment in real-world settings