Apprendimento Contrastivo Selettivo per il Grounding di Affordance con Supervisione Debole
Selective Contrastive Learning for Weakly Supervised Affordance Grounding
August 11, 2025
Autori: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI
Abstract
Facilitare l'interazione di un'entità con gli oggetti richiede l'identificazione accurata delle parti che consentono azioni specifiche. Il grounding degli affordance con supervisione debole (WSAG) mira a imitare l'apprendimento umano da dimostrazioni in terza persona, in cui gli esseri umani colgono intuitivamente le parti funzionali senza necessitare di annotazioni a livello di pixel. Per raggiungere questo obiettivo, il grounding viene tipicamente appreso utilizzando un classificatore condiviso tra immagini provenienti da diverse prospettive, insieme a strategie di distillazione che incorporano il processo di scoperta delle parti. Tuttavia, poiché le parti rilevanti per l'affordance non sono sempre facilmente distinguibili, i modelli si basano principalmente sulla classificazione, spesso concentrandosi su pattern specifici della classe che non sono correlati all'affordance. Per affrontare questa limitazione, andiamo oltre l'apprendimento isolato a livello di parte introducendo obiettivi prototipici selettivi e contrastivi a livello di pixel che apprendono in modo adattivo i segnali rilevanti per l'affordance sia a livello di parte che di oggetto, a seconda della granularità delle informazioni disponibili. Inizialmente, individuiamo gli oggetti associati all'azione sia nelle immagini egocentriche (centrate sull'oggetto) che in quelle eccentriche (esempi in terza persona) sfruttando CLIP. Quindi, incrociando gli oggetti scoperti nelle viste complementari, estraiamo i precisi indizi di affordance a livello di parte in ciascuna prospettiva. Apprendendo in modo coerente a distinguere le regioni rilevanti per l'affordance dal contesto di sfondo irrilevante, il nostro approccio sposta efficacemente l'attivazione dalle aree irrilevanti verso i segnali significativi di affordance. I risultati sperimentali dimostrano l'efficacia del nostro metodo. I codici sono disponibili su github.com/hynnsk/SelectiveCL.
English
Facilitating an entity's interaction with objects requires accurately
identifying parts that afford specific actions. Weakly supervised affordance
grounding (WSAG) seeks to imitate human learning from third-person
demonstrations, where humans intuitively grasp functional parts without needing
pixel-level annotations. To achieve this, grounding is typically learned using
a shared classifier across images from different perspectives, along with
distillation strategies incorporating part discovery process. However, since
affordance-relevant parts are not always easily distinguishable, models
primarily rely on classification, often focusing on common class-specific
patterns that are unrelated to affordance. To address this limitation, we move
beyond isolated part-level learning by introducing selective prototypical and
pixel contrastive objectives that adaptively learn affordance-relevant cues at
both the part and object levels, depending on the granularity of the available
information. Initially, we find the action-associated objects in both
egocentric (object-focused) and exocentric (third-person example) images by
leveraging CLIP. Then, by cross-referencing the discovered objects of
complementary views, we excavate the precise part-level affordance clues in
each perspective. By consistently learning to distinguish affordance-relevant
regions from affordance-irrelevant background context, our approach effectively
shifts activation from irrelevant areas toward meaningful affordance cues.
Experimental results demonstrate the effectiveness of our method. Codes are
available at github.com/hynnsk/SelectiveCL.