INTRA: インタラクション関係を認識する弱教師付きアフォーダンスグラウンディング
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
著者: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
要旨
アフォーダンスは、物体に内在する潜在的な相互作用を示します。アフォーダンスの認識は、知能エージェントが新しい環境で効率的に移動し、相互作用することを可能にすることがあります。弱教師付きアフォーダンスグラウンディングは、高コストなピクセルレベルの注釈を必要とせず、エキソセントリック画像を用いてアフォーダンスの概念をエージェントに教えるものです。最近の弱教師付きアフォーダンスグラウンディングの進展には、有望な結果が得られましたが、エキソセントリック画像とエゴセントリック画像のペアデータセットが必要であるという課題や、単一の物体に対する多様なアフォーダンスのグラウンディングの複雑さなどの課題が残っています。これらに対処するために、私たちはINTeraction Relationship-aware weakly supervised Affordance grounding(INTRA)を提案します。INTRAは、従来の手法とは異なり、この問題を表現学習として再構築し、エキソセントリック画像のみを用いたコントラスト学習によって相互作用のユニークな特徴を特定することで、ペアデータセットの必要性を排除します。さらに、ビジョン言語モデルの埋め込みを活用し、テキストに柔軟に適応したアフォーダンスグラウンディングを行うために、テキスト条件付きのアフォーダンスマップ生成を設計し、コントラスト学習のための相互作用関係を反映させ、テキストの同義語拡張によって堅牢性を向上させます。私たちの手法は、AGD20K、IIT-AFF、CAD、UMDなどの多様なデータセットで従来の手法を上回りました。さらに、実験結果は、私たちの手法が合成画像/イラストに対する顕著なドメインスケーラビリティを持ち、新しい相互作用や物体に対するアフォーダンスグラウンディングを行う能力を示しています。
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary