INTRA: Interaktionsbeziehungsorientierte schwach überwachte Affordanz-Verankerung
INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
September 10, 2024
Autoren: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI
Zusammenfassung
Affordanz bezeichnet die potenziellen Interaktionen, die in Objekten angelegt sind. Die Wahrnehmung von Affordanz kann intelligenten Agenten ermöglichen, effizient durch neue Umgebungen zu navigieren und mit ihnen zu interagieren. Die schwach überwachte Affordanz-Verankerung lehrt Agenten das Konzept der Affordanz ohne kostspielige Pixel-Ebene Annotationen, sondern mit exozentrischen Bildern. Obwohl jüngste Fortschritte in der schwach überwachten Affordanz-Verankerung vielversprechende Ergebnisse erbracht haben, bestehen weiterhin Herausforderungen, darunter der Bedarf an gepaarten exozentrischen und egozentrischen Bildern sowie die Komplexität bei der Verankerung verschiedener Affordanzen für ein einzelnes Objekt. Um diesen Herausforderungen zu begegnen, schlagen wir INTeraction Relationship-aware schwach überwachte Affordanz-Verankerung (INTRA) vor. Anders als bisherige Ansätze formuliert INTRA dieses Problem als Repräsentationslernen, um eindeutige Merkmale von Interaktionen durch kontrastives Lernen nur mit exozentrischen Bildern zu identifizieren, wodurch die Notwendigkeit gepaarter Datensätze entfällt. Darüber hinaus nutzen wir Modell-Einbettungen für Bildsprache zur flexiblen Durchführung der Affordanz-Verankerung mit beliebigem Text, indem wir die textkonditionierte Generierung von Affordanz-Karten entwerfen, um die Interaktionsbeziehung für kontrastives Lernen widerzuspiegeln und die Robustheit mit unserer Textsynonym-Augmentierung zu verbessern. Unsere Methode übertraf bisherige Ansätze auf verschiedenen Datensätzen wie AGD20K, IIT-AFF, CAD und UMD. Darüber hinaus zeigen experimentelle Ergebnisse, dass unsere Methode eine bemerkenswerte Domänen-Skalierbarkeit für synthetische Bilder/ Illustrationen aufweist und in der Lage ist, Affordanz-Verankerung für neue Interaktionen und Objekte durchzuführen.
English
Affordance denotes the potential interactions inherent in objects. The
perception of affordance can enable intelligent agents to navigate and interact
with new environments efficiently. Weakly supervised affordance grounding
teaches agents the concept of affordance without costly pixel-level
annotations, but with exocentric images. Although recent advances in weakly
supervised affordance grounding yielded promising results, there remain
challenges including the requirement for paired exocentric and egocentric image
dataset, and the complexity in grounding diverse affordances for a single
object. To address them, we propose INTeraction Relationship-aware weakly
supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this
problem as representation learning to identify unique features of interactions
through contrastive learning with exocentric images only, eliminating the need
for paired datasets. Moreover, we leverage vision-language model embeddings for
performing affordance grounding flexibly with any text, designing
text-conditioned affordance map generation to reflect interaction relationship
for contrastive learning and enhancing robustness with our text synonym
augmentation. Our method outperformed prior arts on diverse datasets such as
AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate
that our method has remarkable domain scalability for synthesized images /
illustrations and is capable of performing affordance grounding for novel
interactions and objects.Summary
AI-Generated Summary