A4-Agent: Uma Estrutura de Agência para Raciocínio de Afordança em Zero-Shot

Resumo

A previsão de affordance, que identifica regiões de interação em objetos com base em instruções linguísticas, é fundamental para a IA incorporada. Os modelos end-to-end predominantes acoplam o raciocínio de alto nível e a fundamentação de baixo nível em um pipeline monolítico único e dependem de treinamento em conjuntos de dados anotados, o que resulta em má generalização para objetos novos e ambientes não vistos. Neste artigo, vamos além desse paradigma propondo o A4-Agent, um framework agentivo sem necessidade de treinamento que desacopla a previsão de affordance em um pipeline de três estágios. Nosso framework coordena modelos de base especializados em tempo de teste: (1) um "Sonhador" que emprega modelos generativos para visualizar como uma interação se pareceria; (2) um "Pensador" que utiliza grandes modelos de visão e linguagem para decidir qual parte do objeto interagir; e (3) um "Localizador" que orquestra modelos de base de visão para localizar precisamente onde está a área de interação. Ao aproveitar os pontos fortes complementares de modelos pré-treinados sem qualquer ajuste fino específico da tarefa, nosso framework de aprendizado zero-shot supera significativamente os métodos supervisionados state-of-the-art em múltiplos benchmarks e demonstra generalização robusta para configurações do mundo real.

English

Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a Dreamer that employs generative models to visualize how an interaction would look; (2) a Thinker that utilizes large vision-language models to decide what object part to interact with; and (3) a Spotter that orchestrates vision foundation models to precisely locate where the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.

A4-Agent: Uma Estrutura de Agência para Raciocínio de Afordança em Zero-Shot

A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

Resumo

Support