INTRA: Interazione Consapevole delle Relazioni per l'Affordance Supervisionata in Modo Debole
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Autori: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Abstract
L'affordance indica le interazioni potenziali intrinseche negli oggetti. La percezione dell'affordance può consentire agli agenti intelligenti di navigare e interagire con nuovi ambienti in modo efficiente. Il grounding dell'affordance debolmente supervisionato insegna agli agenti il concetto di affordance senza costose annotazioni a livello di pixel, ma con immagini esocentriche. Sebbene i recenti progressi nel grounding dell'affordance debolmente supervisionato abbiano prodotto risultati promettenti, rimangono sfide tra cui il requisito di un dataset di immagini esocentriche ed egocentriche accoppiate e la complessità nel grounding di diverse affordance per un singolo oggetto. Per affrontarle, proponiamo il grounding dell'affordance debolmente supervisionato consapevole delle relazioni di interazione (INTRA). A differenza delle opere precedenti, INTRA riformula questo problema come apprendimento della rappresentazione per identificare le caratteristiche uniche delle interazioni attraverso l'apprendimento contrastivo solo con immagini esocentriche, eliminando la necessità di dataset accoppiati. Inoltre, sfruttiamo gli embedding dei modelli visione-linguaggio per eseguire il grounding dell'affordance in modo flessibile con qualsiasi testo, progettando la generazione di mappe di affordance condizionate al testo per riflettere la relazione di interazione per l'apprendimento contrastivo e potenziare la robustezza con la nostra augmentazione dei sinonimi del testo. Il nostro metodo ha superato le opere precedenti su dataset diversi come AGD20K, IIT-AFF, CAD e UMD. Inoltre, i risultati sperimentali dimostrano che il nostro metodo ha una notevole scalabilità di dominio per immagini / illustrazioni sintetizzate ed è in grado di eseguire il grounding dell'affordance per interazioni e oggetti nuovi in modo efficace.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary