Apprendimento Contrastivo Selettivo per il Grounding di Affordance con Supervisione Debole

Abstract

Facilitare l'interazione di un'entità con gli oggetti richiede l'identificazione accurata delle parti che consentono azioni specifiche. Il grounding degli affordance con supervisione debole (WSAG) mira a imitare l'apprendimento umano da dimostrazioni in terza persona, in cui gli esseri umani colgono intuitivamente le parti funzionali senza necessitare di annotazioni a livello di pixel. Per raggiungere questo obiettivo, il grounding viene tipicamente appreso utilizzando un classificatore condiviso tra immagini provenienti da diverse prospettive, insieme a strategie di distillazione che incorporano il processo di scoperta delle parti. Tuttavia, poiché le parti rilevanti per l'affordance non sono sempre facilmente distinguibili, i modelli si basano principalmente sulla classificazione, spesso concentrandosi su pattern specifici della classe che non sono correlati all'affordance. Per affrontare questa limitazione, andiamo oltre l'apprendimento isolato a livello di parte introducendo obiettivi prototipici selettivi e contrastivi a livello di pixel che apprendono in modo adattivo i segnali rilevanti per l'affordance sia a livello di parte che di oggetto, a seconda della granularità delle informazioni disponibili. Inizialmente, individuiamo gli oggetti associati all'azione sia nelle immagini egocentriche (centrate sull'oggetto) che in quelle eccentriche (esempi in terza persona) sfruttando CLIP. Quindi, incrociando gli oggetti scoperti nelle viste complementari, estraiamo i precisi indizi di affordance a livello di parte in ciascuna prospettiva. Apprendendo in modo coerente a distinguere le regioni rilevanti per l'affordance dal contesto di sfondo irrilevante, il nostro approccio sposta efficacemente l'attivazione dalle aree irrilevanti verso i segnali significativi di affordance. I risultati sperimentali dimostrano l'efficacia del nostro metodo. I codici sono disponibili su github.com/hynnsk/SelectiveCL.

English

Facilitating an entity's interaction with objects requires accurately identifying parts that afford specific actions. Weakly supervised affordance grounding (WSAG) seeks to imitate human learning from third-person demonstrations, where humans intuitively grasp functional parts without needing pixel-level annotations. To achieve this, grounding is typically learned using a shared classifier across images from different perspectives, along with distillation strategies incorporating part discovery process. However, since affordance-relevant parts are not always easily distinguishable, models primarily rely on classification, often focusing on common class-specific patterns that are unrelated to affordance. To address this limitation, we move beyond isolated part-level learning by introducing selective prototypical and pixel contrastive objectives that adaptively learn affordance-relevant cues at both the part and object levels, depending on the granularity of the available information. Initially, we find the action-associated objects in both egocentric (object-focused) and exocentric (third-person example) images by leveraging CLIP. Then, by cross-referencing the discovered objects of complementary views, we excavate the precise part-level affordance clues in each perspective. By consistently learning to distinguish affordance-relevant regions from affordance-irrelevant background context, our approach effectively shifts activation from irrelevant areas toward meaningful affordance cues. Experimental results demonstrate the effectiveness of our method. Codes are available at github.com/hynnsk/SelectiveCL.

Apprendimento Contrastivo Selettivo per il Grounding di Affordance con Supervisione Debole

Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Abstract

Support