ChatPaper.aiChatPaper

A4-Agent: un framework agentivo per il ragionamento sull'affordance zero-shot

A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

December 16, 2025
Autori: Zixin Zhang, Kanghao Chen, Hanqing Wang, Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Litao Guo, Ying-Cong Chen
cs.AI

Abstract

La previsione di affordance, che identifica le regioni di interazione sugli oggetti in base a istruzioni linguistiche, è fondamentale per l'IA incarnata. I modelli end-to-end predominanti accoppiano il ragionamento di alto livello e la localizzazione di basso livello in una singola pipeline monolitica e si basano sull'addestramento su dataset annotati, il che porta a una scarsa generalizzazione su oggetti nuovi e ambienti inesplorati. In questo articolo, andiamo oltre questo paradigma proponendo A4-Agent, un framework agentico senza addestramento che disaccoppia la previsione di affordance in una pipeline a tre stadi. Il nostro framework coordina modelli foundation specializzati al momento del test: (1) un "Dreamer" che impiega modelli generativi per visualizzare come apparirebbe un'interazione; (2) un "Thinker" che utilizza grandi modelli visione-linguaggio per decidere quale parte dell'oggetto interagire; e (3) uno "Spotter" che orchestra modelli foundation visivi per localizzare con precisione dove si trova l'area di interazione. Sfruttando i punti di forza complementari di modelli pre-addestrati senza alcuna messa a punto specifica per il compito, il nostro framework zero-shot supera significativamente i metodi supervisionati all'avanguardia su molteplici benchmark e dimostra una robusta generalizzazione in contesti del mondo reale.
English
Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a Dreamer that employs generative models to visualize how an interaction would look; (2) a Thinker that utilizes large vision-language models to decide what object part to interact with; and (3) a Spotter that orchestrates vision foundation models to precisely locate where the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.
PDF91December 18, 2025