INTRA: Interactie Relatie-bewuste Zwak Ondersteunde Affordance Gronding

Samenvatting

Affordance verwijst naar de potentiële interacties die inherent zijn aan objecten. De perceptie van affordance kan intelligente agenten in staat stellen om efficiënt te navigeren en te interageren met nieuwe omgevingen. Zwak gesuperviseerde affordance-gronding leert agenten het concept van affordance zonder kostbare pixelniveau-annotaties, maar met exocentrische afbeeldingen. Hoewel recente ontwikkelingen op het gebied van zwak gesuperviseerde affordance-gronding veelbelovende resultaten hebben opgeleverd, blijven er uitdagingen bestaan, waaronder de vereiste van een gekoppeld dataset van exocentrische en egocentrische afbeeldingen, en de complexiteit van het gronden van diverse affordances voor een enkel object. Om deze aan te pakken, stellen wij INTRA voor, Interaction Relationship-aware zwak gesuperviseerde Affordance-gronding. In tegenstelling tot eerdere methoden, benadert INTRA dit probleem als representatie-leren om unieke kenmerken van interacties te identificeren via contrastief leren met alleen exocentrische afbeeldingen, waardoor de noodzaak voor gekoppelde datasets wordt geëlimineerd. Bovendien maken we gebruik van visie-taalmodel-embeddings om affordance-gronding flexibel uit te voeren met behulp van tekst, waarbij tekst-geconditioneerde affordance-kaartgeneratie wordt ontworpen om de interactierelatie weer te geven voor contrastief leren en de robuustheid te verbeteren met onze tekst-synoniem-augmentatie. Onze methode presteerde beter dan eerdere methoden op diverse datasets zoals AGD20K, IIT-AFF, CAD en UMD. Bovendien tonen experimentele resultaten aan dat onze methode opmerkelijke domeinschaalbaarheid heeft voor gesynthetiseerde afbeeldingen/illustraties en in staat is om affordance-gronding uit te voeren voor nieuwe interacties en objecten.

English

Affordance denotes the potential interactions inherent in objects. The perception of affordance can enable intelligent agents to navigate and interact with new environments efficiently. Weakly supervised affordance grounding teaches agents the concept of affordance without costly pixel-level annotations, but with exocentric images. Although recent advances in weakly supervised affordance grounding yielded promising results, there remain challenges including the requirement for paired exocentric and egocentric image dataset, and the complexity in grounding diverse affordances for a single object. To address them, we propose INTeraction Relationship-aware weakly supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this problem as representation learning to identify unique features of interactions through contrastive learning with exocentric images only, eliminating the need for paired datasets. Moreover, we leverage vision-language model embeddings for performing affordance grounding flexibly with any text, designing text-conditioned affordance map generation to reflect interaction relationship for contrastive learning and enhancing robustness with our text synonym augmentation. Our method outperformed prior arts on diverse datasets such as AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate that our method has remarkable domain scalability for synthesized images / illustrations and is capable of performing affordance grounding for novel interactions and objects.

INTRA: Interactie Relatie-bewuste Zwak Ondersteunde Affordance Gronding

INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding

Samenvatting

Summary

Support

Support