INTRA: Fundamentação de Aproveitamento Supervisionado Fraco Consciente da Relação de Interação
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Autores: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Resumo
A affordance denota as interações potenciais inerentes aos objetos. A percepção de affordance pode capacitar agentes inteligentes a navegar e interagir com novos ambientes de forma eficiente. O enraizamento de affordance fracamente supervisionado ensina aos agentes o conceito de affordance sem anotações caras a nível de pixel, mas com imagens exocêntricas. Embora avanços recentes no enraizamento de affordance fracamente supervisionado tenham produzido resultados promissores, ainda existem desafios, incluindo a necessidade de conjuntos de dados de imagens exocêntricas e egocêntricas em pares, e a complexidade em enraizar diversas affordances para um único objeto. Para abordá-los, propomos o enraizamento de Affordance fracamente supervisionado INTRA (INTRA) ciente do Relacionamento de Interação. Ao contrário de trabalhos anteriores, o INTRA reformula esse problema como aprendizado de representação para identificar características únicas de interações por meio de aprendizado contrastivo apenas com imagens exocêntricas, eliminando a necessidade de conjuntos de dados em pares. Além disso, aproveitamos os embeddings de modelos de visão e linguagem para realizar o enraizamento de affordance de forma flexível com qualquer texto, projetando a geração de mapas de affordance condicionados a texto para refletir o relacionamento de interação para aprendizado contrastivo e aprimorando a robustez com nossa ampliação de sinônimos de texto. Nosso método superou trabalhos anteriores em diversos conjuntos de dados, como AGD20K, IIT-AFF, CAD e UMD. Além disso, os resultados experimentais demonstram que nosso método possui uma notável escalabilidade de domínio para imagens/ilustrações sintetizadas e é capaz de realizar o enraizamento de affordance para interações e objetos novos.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary