ChatPaper.aiChatPaper

INTRA: Interaktionsbeziehungsorientierte schwach überwachte Affordanz-Verankerung

INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding

September 10, 2024
Autoren: Ji Ha Jang, Hoigi Seo, Se Young Chun
cs.AI

Zusammenfassung

Affordanz bezeichnet die potenziellen Interaktionen, die in Objekten angelegt sind. Die Wahrnehmung von Affordanz kann intelligenten Agenten ermöglichen, effizient durch neue Umgebungen zu navigieren und mit ihnen zu interagieren. Die schwach überwachte Affordanz-Verankerung lehrt Agenten das Konzept der Affordanz ohne kostspielige Pixel-Ebene Annotationen, sondern mit exozentrischen Bildern. Obwohl jüngste Fortschritte in der schwach überwachten Affordanz-Verankerung vielversprechende Ergebnisse erbracht haben, bestehen weiterhin Herausforderungen, darunter der Bedarf an gepaarten exozentrischen und egozentrischen Bildern sowie die Komplexität bei der Verankerung verschiedener Affordanzen für ein einzelnes Objekt. Um diesen Herausforderungen zu begegnen, schlagen wir INTeraction Relationship-aware schwach überwachte Affordanz-Verankerung (INTRA) vor. Anders als bisherige Ansätze formuliert INTRA dieses Problem als Repräsentationslernen, um eindeutige Merkmale von Interaktionen durch kontrastives Lernen nur mit exozentrischen Bildern zu identifizieren, wodurch die Notwendigkeit gepaarter Datensätze entfällt. Darüber hinaus nutzen wir Modell-Einbettungen für Bildsprache zur flexiblen Durchführung der Affordanz-Verankerung mit beliebigem Text, indem wir die textkonditionierte Generierung von Affordanz-Karten entwerfen, um die Interaktionsbeziehung für kontrastives Lernen widerzuspiegeln und die Robustheit mit unserer Textsynonym-Augmentierung zu verbessern. Unsere Methode übertraf bisherige Ansätze auf verschiedenen Datensätzen wie AGD20K, IIT-AFF, CAD und UMD. Darüber hinaus zeigen experimentelle Ergebnisse, dass unsere Methode eine bemerkenswerte Domänen-Skalierbarkeit für synthetische Bilder/ Illustrationen aufweist und in der Lage ist, Affordanz-Verankerung für neue Interaktionen und Objekte durchzuführen.
English
Affordance denotes the potential interactions inherent in objects. The perception of affordance can enable intelligent agents to navigate and interact with new environments efficiently. Weakly supervised affordance grounding teaches agents the concept of affordance without costly pixel-level annotations, but with exocentric images. Although recent advances in weakly supervised affordance grounding yielded promising results, there remain challenges including the requirement for paired exocentric and egocentric image dataset, and the complexity in grounding diverse affordances for a single object. To address them, we propose INTeraction Relationship-aware weakly supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this problem as representation learning to identify unique features of interactions through contrastive learning with exocentric images only, eliminating the need for paired datasets. Moreover, we leverage vision-language model embeddings for performing affordance grounding flexibly with any text, designing text-conditioned affordance map generation to reflect interaction relationship for contrastive learning and enhancing robustness with our text synonym augmentation. Our method outperformed prior arts on diverse datasets such as AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate that our method has remarkable domain scalability for synthesized images / illustrations and is capable of performing affordance grounding for novel interactions and objects.

Summary

AI-Generated Summary

PDF272November 16, 2024