A4-Agent: Un Marco de Agentes para el Razonamiento de Posibilidades de Uso (Affordance) de Tipo Zero-Shot
A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
December 16, 2025
Autores: Zixin Zhang, Kanghao Chen, Hanqing Wang, Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Litao Guo, Ying-Cong Chen
cs.AI
Resumen
La predicción de affordances, que identifica regiones de interacción en objetos basándose en instrucciones lingüísticas, es fundamental para la IA corporizada. Los modelos predominantes de extremo a extremo acoplan el razonamiento de alto nivel y la localización de bajo nivel en una única canalización monolítica y dependen del entrenamiento con conjuntos de datos anotados, lo que conduce a una pobre generalización en objetos novedosos y entornos no vistos. En este artículo, vamos más allá de este paradigma proponiendo A4-Agent, un marco agéntico libre de entrenamiento que desacopla la predicción de affordances en una canalización de tres etapas. Nuestro marco coordina modelos de base especializados en tiempo de prueba: (1) un Soñador que emplea modelos generativos para visualizar cómo se vería una interacción; (2) un Pensador que utiliza grandes modelos de visión y lenguaje para decidir qué parte del objeto interactuar; y (3) un Localizador que orquesta modelos de base de visión para ubicar con precisión dónde está el área de interacción. Al aprovechar las fortalezas complementarias de modelos preentrenados sin ninguna fine-tuning específico de la tarea, nuestro marco de cero disparos supera significativamente a los métodos supervisados más avanzados en múltiples benchmarks y demuestra una generalización robusta en entornos del mundo real.
English
Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a Dreamer that employs generative models to visualize how an interaction would look; (2) a Thinker that utilizes large vision-language models to decide what object part to interact with; and (3) a Spotter that orchestrates vision foundation models to precisely locate where the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.