INTRA: Interactie Relatie-bewuste Zwak Ondersteunde Affordance Gronding
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Auteurs: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Samenvatting
Affordance verwijst naar de potentiële interacties die inherent zijn aan objecten. De perceptie van affordance kan intelligente agenten in staat stellen om efficiënt te navigeren en te interageren met nieuwe omgevingen. Zwak gesuperviseerde affordance-gronding leert agenten het concept van affordance zonder kostbare pixelniveau-annotaties, maar met exocentrische afbeeldingen. Hoewel recente ontwikkelingen op het gebied van zwak gesuperviseerde affordance-gronding veelbelovende resultaten hebben opgeleverd, blijven er uitdagingen bestaan, waaronder de vereiste van een gekoppeld dataset van exocentrische en egocentrische afbeeldingen, en de complexiteit van het gronden van diverse affordances voor een enkel object. Om deze aan te pakken, stellen wij INTRA voor, Interaction Relationship-aware zwak gesuperviseerde Affordance-gronding. In tegenstelling tot eerdere methoden, benadert INTRA dit probleem als representatie-leren om unieke kenmerken van interacties te identificeren via contrastief leren met alleen exocentrische afbeeldingen, waardoor de noodzaak voor gekoppelde datasets wordt geëlimineerd. Bovendien maken we gebruik van visie-taalmodel-embeddings om affordance-gronding flexibel uit te voeren met behulp van tekst, waarbij tekst-geconditioneerde affordance-kaartgeneratie wordt ontworpen om de interactierelatie weer te geven voor contrastief leren en de robuustheid te verbeteren met onze tekst-synoniem-augmentatie. Onze methode presteerde beter dan eerdere methoden op diverse datasets zoals AGD20K, IIT-AFF, CAD en UMD. Bovendien tonen experimentele resultaten aan dat onze methode opmerkelijke domeinschaalbaarheid heeft voor gesynthetiseerde afbeeldingen/illustraties en in staat is om affordance-gronding uit te voeren voor nieuwe interacties en objecten.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary