ChatPaper.aiChatPaper

INTRA: Interazione Consapevole delle Relazioni per l'Affordance Supervisionata in Modo Debole

INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding

September 10, 2024
Autori: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI

Abstract

L'affordance indica le interazioni potenziali intrinseche negli oggetti. La percezione dell'affordance può consentire agli agenti intelligenti di navigare e interagire con nuovi ambienti in modo efficiente. Il grounding dell'affordance debolmente supervisionato insegna agli agenti il concetto di affordance senza costose annotazioni a livello di pixel, ma con immagini esocentriche. Sebbene i recenti progressi nel grounding dell'affordance debolmente supervisionato abbiano prodotto risultati promettenti, rimangono sfide tra cui il requisito di un dataset di immagini esocentriche ed egocentriche accoppiate e la complessità nel grounding di diverse affordance per un singolo oggetto. Per affrontarle, proponiamo il grounding dell'affordance debolmente supervisionato consapevole delle relazioni di interazione (INTRA). A differenza delle opere precedenti, INTRA riformula questo problema come apprendimento della rappresentazione per identificare le caratteristiche uniche delle interazioni attraverso l'apprendimento contrastivo solo con immagini esocentriche, eliminando la necessità di dataset accoppiati. Inoltre, sfruttiamo gli embedding dei modelli visione-linguaggio per eseguire il grounding dell'affordance in modo flessibile con qualsiasi testo, progettando la generazione di mappe di affordance condizionate al testo per riflettere la relazione di interazione per l'apprendimento contrastivo e potenziare la robustezza con la nostra augmentazione dei sinonimi del testo. Il nostro metodo ha superato le opere precedenti su dataset diversi come AGD20K, IIT-AFF, CAD e UMD. Inoltre, i risultati sperimentali dimostrano che il nostro metodo ha una notevole scalabilità di dominio per immagini / illustrazioni sintetizzate ed è in grado di eseguire il grounding dell'affordance per interazioni e oggetti nuovi in modo efficace.
English
Affordance denotes the potential interactions inherent in objects. The perception of affordance can enable intelligent agents to navigate and interact with new environments efficiently. Weakly supervised affordance grounding teaches agents the concept of affordance without costly pixel-level annotations, but with exocentric images. Although recent advances in weakly supervised affordance grounding yielded promising results, there remain challenges including the requirement for paired exocentric and egocentric image dataset, and the complexity in grounding diverse affordances for a single object. To address them, we propose INTeraction Relationship-aware weakly supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this problem as representation learning to identify unique features of interactions through contrastive learning with exocentric images only, eliminating the need for paired datasets. Moreover, we leverage vision-language model embeddings for performing affordance grounding flexibly with any text, designing text-conditioned affordance map generation to reflect interaction relationship for contrastive learning and enhancing robustness with our text synonym augmentation. Our method outperformed prior arts on diverse datasets such as AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate that our method has remarkable domain scalability for synthesized images / illustrations and is capable of performing affordance grounding for novel interactions and objects.

Summary

AI-Generated Summary

PDF272November 16, 2024