A4-Agent: Ein agentenbasiertes Framework für Zero-Shot-Affordance-Reasoning
A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
December 16, 2025
papers.authors: Zixin Zhang, Kanghao Chen, Hanqing Wang, Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Litao Guo, Ying-Cong Chen
cs.AI
papers.abstract
Affordance-Vorhersage, bei der Interaktionsregionen auf Objekten anhand von Sprachinstruktionen identifiziert werden, ist entscheidend für verkörpertes KI. Vorherrschende End-to-End-Modelle koppeln hochrangiges Schließen und niederrangige Verankerung in einer einzigen monolithischen Pipeline und stützen sich auf das Training mit annotierten Datensätzen, was zu schlechter Generalisierung bei neuen Objekten und ungesehenen Umgebungen führt. In diesem Beitrag gehen wir über dieses Paradigma hinaus, indem wir A4-Agent vorschlagen, ein trainingsfreies agentenbasiertes Framework, das die Affordance-Vorhersage in eine dreistufige Pipeline entkoppelt. Unser Framework koordiniert spezialisierte Foundation-Modelle zur Testzeit: (1) einen „Dreamer“, der generative Modelle einsetzt, um zu visualisieren, wie eine Interaktion aussehen würde; (2) einen „Thinker“, der große Vision-Language-Modelle nutzt, um zu entscheiden, mit welchem Objektteil interagiert werden soll; und (3) einen „Spotter“, der Vision-Foundation-Modelle orchestriert, um präzise zu lokalisieren, wo der Interaktionsbereich liegt. Durch die Nutzung der komplementären Stärken vortrainierter Modelle ohne taskspezifisches Feintuning übertrifft unser Zero-Shot-Framework state-of-the-art überwachte Methoden in mehreren Benchmarks deutlich und zeigt robuste Generalisierung in realen Umgebungen.
English
Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a Dreamer that employs generative models to visualize how an interaction would look; (2) a Thinker that utilizes large vision-language models to decide what object part to interact with; and (3) a Spotter that orchestrates vision foundation models to precisely locate where the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.