ChatPaper.aiChatPaper

약한 감독을 통한 어포던스 그라운딩을 위한 선택적 대조 학습

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

August 11, 2025
저자: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI

초록

개체가 객체와 상호작용하는 것을 용이하게 하려면 특정 행동을 가능하게 하는 부위를 정확히 식별해야 합니다. 약한 감독 하의 행동 가능성 기반 설정(WSAG)은 제3자 시점의 시연을 통해 인간이 직관적으로 기능적 부위를 파악하는 방식을 모방하려고 합니다. 이를 위해 일반적으로 서로 다른 시각에서 촬영된 이미지들 간에 공유 분류기를 사용하고, 부위 발견 과정을 포함한 증류 전략을 통해 기반 설정을 학습합니다. 그러나 행동 가능성과 관련된 부위가 항상 쉽게 구분되지는 않기 때문에, 모델은 주로 분류에 의존하며 종종 행동 가능성과 무관한 클래스별 공통 패턴에 초점을 맞추는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 고립된 부위 수준의 학습을 넘어, 사용 가능한 정보의 세분성에 따라 부위 및 객체 수준에서 행동 가능성과 관련된 단서를 적응적으로 학습하는 선택적 프로토타입 및 픽셀 대조 목표를 도입합니다. 먼저, CLIP을 활용하여 자기 중심적(객체 중심) 및 타자 중심적(제3자 예시) 이미지에서 행동과 관련된 객체를 찾습니다. 그런 다음 상호 보완적인 시각에서 발견된 객체를 교차 참조하여 각 시각에서 정확한 부위 수준의 행동 가능성 단서를 발굴합니다. 행동 가능성과 관련된 영역을 관련 없는 배경 맥락과 지속적으로 구분하도록 학습함으로써, 우리의 접근 방식은 관련 없는 영역에서 의미 있는 행동 가능성 단서로 활성화를 효과적으로 전환합니다. 실험 결과는 우리 방법의 효과를 입증합니다. 코드는 github.com/hynnsk/SelectiveCL에서 확인할 수 있습니다.
English
Facilitating an entity's interaction with objects requires accurately identifying parts that afford specific actions. Weakly supervised affordance grounding (WSAG) seeks to imitate human learning from third-person demonstrations, where humans intuitively grasp functional parts without needing pixel-level annotations. To achieve this, grounding is typically learned using a shared classifier across images from different perspectives, along with distillation strategies incorporating part discovery process. However, since affordance-relevant parts are not always easily distinguishable, models primarily rely on classification, often focusing on common class-specific patterns that are unrelated to affordance. To address this limitation, we move beyond isolated part-level learning by introducing selective prototypical and pixel contrastive objectives that adaptively learn affordance-relevant cues at both the part and object levels, depending on the granularity of the available information. Initially, we find the action-associated objects in both egocentric (object-focused) and exocentric (third-person example) images by leveraging CLIP. Then, by cross-referencing the discovered objects of complementary views, we excavate the precise part-level affordance clues in each perspective. By consistently learning to distinguish affordance-relevant regions from affordance-irrelevant background context, our approach effectively shifts activation from irrelevant areas toward meaningful affordance cues. Experimental results demonstrate the effectiveness of our method. Codes are available at github.com/hynnsk/SelectiveCL.
PDF113August 25, 2025