INTRA: Interacción Relación-consciente de Anclaje de Aprovechamiento Débilmente Supervisado
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Autores: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Resumen
La affordance denota las interacciones potenciales inherentes en los objetos. La percepción de la affordance puede permitir a agentes inteligentes navegar e interactuar con nuevos entornos de manera eficiente. El anclaje de affordance débilmente supervisado enseña a los agentes el concepto de affordance sin costosas anotaciones a nivel de píxeles, pero con imágenes exocéntricas. Aunque los avances recientes en el anclaje de affordance débilmente supervisado han dado resultados prometedores, aún existen desafíos, incluida la necesidad de un conjunto de datos de imágenes exocéntricas y egocéntricas emparejadas, y la complejidad en anclar diversas affordances para un solo objeto. Para abordarlos, proponemos INTRA (Anclaje de Affordance débilmente supervisado con Conciencia de Relación de Interacción). A diferencia de los trabajos anteriores, INTRA redefine este problema como aprendizaje de representaciones para identificar características únicas de las interacciones a través de aprendizaje contrastivo solo con imágenes exocéntricas, eliminando la necesidad de conjuntos de datos emparejados. Además, aprovechamos los modelos de visión y lenguaje para realizar el anclaje de affordance de manera flexible con cualquier texto, diseñando la generación de mapas de affordance condicionados por texto para reflejar la relación de interacción para el aprendizaje contrastivo y mejorar la robustez con nuestra ampliación de sinónimos de texto. Nuestro método superó a los trabajos anteriores en diversos conjuntos de datos como AGD20K, IIT-AFF, CAD y UMD. Además, los resultados experimentales demuestran que nuestro método tiene una notable escalabilidad de dominio para imágenes / ilustraciones sintetizadas y es capaz de realizar el anclaje de affordance para interacciones y objetos novedosos.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary