INTRA : Interaction Relationnelle Consciente de l'Affordance Supervisée Faiblement
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Auteurs: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Résumé
L'« affordance » désigne les interactions potentielles inhérentes aux objets. La perception de l'« affordance » peut permettre aux agents intelligents de naviguer et d'interagir efficacement avec de nouveaux environnements. Le « grounding » de l'« affordance » faiblement supervisé enseigne aux agents le concept d'« affordance » sans annotations coûteuses au niveau des pixels, mais avec des images exocentriques. Bien que les récents progrès dans le « grounding » faiblement supervisé de l'« affordance » aient donné des résultats prometteurs, il reste des défis, notamment l'exigence d'un ensemble de données d'images exocentriques et égocentriques appariées, et la complexité de l'ancrage de diverses « affordances » pour un seul objet. Pour les relever, nous proposons le « grounding » d'« affordance » faiblement supervisé conscient des relations d'interaction (INTRA). Contrairement aux travaux antérieurs, INTRA reformule ce problème comme un apprentissage de représentation pour identifier les caractéristiques uniques des interactions par l'apprentissage contrastif avec uniquement des images exocentriques, éliminant ainsi le besoin d'ensembles de données appariées. De plus, nous exploitons les plongements de modèles vision-langage pour effectuer l'ancrage d'« affordance » de manière flexible avec n'importe quel texte, concevant la génération de cartes d'« affordance » conditionnées par le texte pour refléter la relation d'interaction pour l'apprentissage contrastif et renforcer la robustesse avec notre augmentation de synonymes de texte. Notre méthode a surpassé les travaux antérieurs sur divers ensembles de données tels que AGD20K, IIT-AFF, CAD et UMD. De plus, les résultats expérimentaux démontrent que notre méthode a une remarquable scalabilité de domaine pour les images / illustrations synthétisées et est capable d'effectuer un ancrage d'« affordance » pour de nouvelles interactions et objets.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary