ChatPaper.aiChatPaper

A4-Agent: Een Agentisch Raamwerk voor Zero-Shot Affordantie Redenering

A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

December 16, 2025
Auteurs: Zixin Zhang, Kanghao Chen, Hanqing Wang, Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Litao Guo, Ying-Cong Chen
cs.AI

Samenvatting

Affordantievoorspelling, die interactieregio's op objecten identificeert op basis van taal-instructies, is cruciaal voor embodied AI. Gangrijke end-to-end modellen koppelen hoogwaardige redenering en laagwaardige grounding in een enkele monolithische pijplijn en vertrouwen op training met geannoteerde datasets, wat leidt tot slechte generalisatie op nieuwe objecten en onbekende omgevingen. In dit artikel gaan we verder dan dit paradigma door A4-Agent voor te stellen, een trainingsvrij agentframework dat affordantievoorspelling ontkoppelt in een driestaps pijplijn. Ons framework coördineert gespecialiseerde foundationmodellen tijdens de testfase: (1) een Dreamer die generatieve modellen gebruikt om te visualiseren hoe een interactie eruit zou zien; (2) een Thinker die grote vision-language modellen benut om te beslissen welk objectdeel geïnteracteerd moet worden; en (3) een Spotter die vision foundationmodellen aanstuurt om precies te lokaliseren waar het interactiegebied is. Door de complementaire sterktes van vooraf getrainde modellen te benutten zonder taakspecifieke fine-tuning, presteert ons zero-shot framework aanzienlijk beter dan state-of-the-art supervised methoden op meerdere benchmarks en toont het robuuste generalisatie naar real-world settings.
English
Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a Dreamer that employs generative models to visualize how an interaction would look; (2) a Thinker that utilizes large vision-language models to decide what object part to interact with; and (3) a Spotter that orchestrates vision foundation models to precisely locate where the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.
PDF91December 18, 2025