弱教師付きアフォーダンスグラウンディングのための選択的コントラスティブ学習
Selective Contrastive Learning for Weakly Supervised Affordance Grounding
August 11, 2025
著者: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI
要旨
物体とのインタラクションを促進するためには、特定の動作を可能にする部分を正確に識別する必要がある。弱教師付きアフォーダンスグラウンディング(WSAG)は、人間がピクセルレベルのアノテーションを必要とせずに、第三者視点のデモンストレーションから直感的に機能的部分を把握する学習を模倣することを目指している。これを実現するために、異なる視点からの画像間で共有される分類器と、部分発見プロセスを取り入れた蒸留戦略を用いてグラウンディングが学習される。しかし、アフォーダンスに関連する部分が常に容易に識別できるわけではないため、モデルは主に分類に依存し、しばしばアフォーダンスとは無関係なクラス固有のパターンに焦点を当ててしまう。この制限を克服するため、我々は孤立した部分レベルの学習を超えて、利用可能な情報の粒度に応じて部分レベルと物体レベルの両方でアフォーダンスに関連する手がかりを適応的に学習する選択的プロトタイプ的およびピクセルコントラスティブな目的関数を導入する。最初に、CLIPを活用して、エゴセントリック(物体中心)およびエクソセントリック(第三者視点)画像の両方で動作に関連する物体を見つける。次に、補完的な視点で発見された物体を相互参照することで、各視点における正確な部分レベルのアフォーダンス手がかりを掘り下げる。アフォーダンスに関連する領域と無関係な背景文脈を一貫して区別することを学習することで、我々のアプローチは無関係な領域から意味のあるアフォーダンス手がかりへと活性化を効果的にシフトさせる。実験結果は、我々の手法の有効性を示している。コードはgithub.com/hynnsk/SelectiveCLで公開されている。
English
Facilitating an entity's interaction with objects requires accurately
identifying parts that afford specific actions. Weakly supervised affordance
grounding (WSAG) seeks to imitate human learning from third-person
demonstrations, where humans intuitively grasp functional parts without needing
pixel-level annotations. To achieve this, grounding is typically learned using
a shared classifier across images from different perspectives, along with
distillation strategies incorporating part discovery process. However, since
affordance-relevant parts are not always easily distinguishable, models
primarily rely on classification, often focusing on common class-specific
patterns that are unrelated to affordance. To address this limitation, we move
beyond isolated part-level learning by introducing selective prototypical and
pixel contrastive objectives that adaptively learn affordance-relevant cues at
both the part and object levels, depending on the granularity of the available
information. Initially, we find the action-associated objects in both
egocentric (object-focused) and exocentric (third-person example) images by
leveraging CLIP. Then, by cross-referencing the discovered objects of
complementary views, we excavate the precise part-level affordance clues in
each perspective. By consistently learning to distinguish affordance-relevant
regions from affordance-irrelevant background context, our approach effectively
shifts activation from irrelevant areas toward meaningful affordance cues.
Experimental results demonstrate the effectiveness of our method. Codes are
available at github.com/hynnsk/SelectiveCL.