약한 감독을 통한 어포던스 그라운딩을 위한 선택적 대조 학습
Selective Contrastive Learning for Weakly Supervised Affordance Grounding
August 11, 2025
저자: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI
초록
개체가 객체와 상호작용하는 것을 용이하게 하려면 특정 행동을 가능하게 하는 부위를 정확히 식별해야 합니다. 약한 감독 하의 행동 가능성 기반 설정(WSAG)은 제3자 시점의 시연을 통해 인간이 직관적으로 기능적 부위를 파악하는 방식을 모방하려고 합니다. 이를 위해 일반적으로 서로 다른 시각에서 촬영된 이미지들 간에 공유 분류기를 사용하고, 부위 발견 과정을 포함한 증류 전략을 통해 기반 설정을 학습합니다. 그러나 행동 가능성과 관련된 부위가 항상 쉽게 구분되지는 않기 때문에, 모델은 주로 분류에 의존하며 종종 행동 가능성과 무관한 클래스별 공통 패턴에 초점을 맞추는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 고립된 부위 수준의 학습을 넘어, 사용 가능한 정보의 세분성에 따라 부위 및 객체 수준에서 행동 가능성과 관련된 단서를 적응적으로 학습하는 선택적 프로토타입 및 픽셀 대조 목표를 도입합니다. 먼저, CLIP을 활용하여 자기 중심적(객체 중심) 및 타자 중심적(제3자 예시) 이미지에서 행동과 관련된 객체를 찾습니다. 그런 다음 상호 보완적인 시각에서 발견된 객체를 교차 참조하여 각 시각에서 정확한 부위 수준의 행동 가능성 단서를 발굴합니다. 행동 가능성과 관련된 영역을 관련 없는 배경 맥락과 지속적으로 구분하도록 학습함으로써, 우리의 접근 방식은 관련 없는 영역에서 의미 있는 행동 가능성 단서로 활성화를 효과적으로 전환합니다. 실험 결과는 우리 방법의 효과를 입증합니다. 코드는 github.com/hynnsk/SelectiveCL에서 확인할 수 있습니다.
English
Facilitating an entity's interaction with objects requires accurately
identifying parts that afford specific actions. Weakly supervised affordance
grounding (WSAG) seeks to imitate human learning from third-person
demonstrations, where humans intuitively grasp functional parts without needing
pixel-level annotations. To achieve this, grounding is typically learned using
a shared classifier across images from different perspectives, along with
distillation strategies incorporating part discovery process. However, since
affordance-relevant parts are not always easily distinguishable, models
primarily rely on classification, often focusing on common class-specific
patterns that are unrelated to affordance. To address this limitation, we move
beyond isolated part-level learning by introducing selective prototypical and
pixel contrastive objectives that adaptively learn affordance-relevant cues at
both the part and object levels, depending on the granularity of the available
information. Initially, we find the action-associated objects in both
egocentric (object-focused) and exocentric (third-person example) images by
leveraging CLIP. Then, by cross-referencing the discovered objects of
complementary views, we excavate the precise part-level affordance clues in
each perspective. By consistently learning to distinguish affordance-relevant
regions from affordance-irrelevant background context, our approach effectively
shifts activation from irrelevant areas toward meaningful affordance cues.
Experimental results demonstrate the effectiveness of our method. Codes are
available at github.com/hynnsk/SelectiveCL.