INTRA: Взаимодействие с учетом отношений слабо контролируемой основы возможностей
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Авторы: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Аннотация
Аффорданс означает потенциальные взаимодействия, присущие объектам. Восприятие аффорданса может позволить интеллектуальным агентам эффективно перемещаться и взаимодействовать с новыми окружениями. Слабо контролируемое закрепление аффорданса обучает агентов концепции аффорданса без затратных аннотаций на уровне пикселей, но с использованием экзоцентрических изображений. Хотя недавние достижения в слабо контролируемом закреплении аффорданса привели к многообещающим результатам, остаются вызовы, включая необходимость сопоставленного набора данных экзоцентрических и эгоцентрических изображений, а также сложность закрепления разнообразных аффордансов для одного объекта. Для их решения мы предлагаем метод INTRA (INTRA), основанный на осознании взаимодействия и слабо контролируемом закреплении аффорданса. В отличие от предыдущих работ, INTRA переформулирует эту проблему как обучение представлений для выявления уникальных особенностей взаимодействий через контрастное обучение только с использованием экзоцентрических изображений, исключая необходимость в сопоставленных наборах данных. Более того, мы используем вложения моделей видео-языка для гибкого выполнения закрепления аффорданса с любым текстом, разрабатывая генерацию карт аффорданса, зависящую от текста, чтобы отразить взаимосвязь взаимодействия для контрастного обучения и улучшения устойчивости с помощью нашего увеличения синонимов текста. Наш метод показал лучшие результаты по сравнению с предыдущими работами на различных наборах данных, таких как AGD20K, IIT-AFF, CAD и UMD. Кроме того, экспериментальные результаты показывают, что наш метод обладает замечательной масштабируемостью в области синтезированных изображений / иллюстраций и способен выполнять закрепление аффорданса для новых взаимодействий и объектов.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary