AFUN: Rumo a um Modelo Fundamental de Affordância para a Compreensão de Funcionalidade

Resumo

A compreensão de affordances conecta a percepção visual à ação física, servindo como uma interface explicável para a manipulação robótica em ambientes reais abertos e não estruturados. No entanto, construir um modelo fundamental de affordances que não apenas entenda onde e como a interação deve ocorrer, mas também generalize entre diversos ambientes, objetos e tarefas, continua sendo um desafio de pesquisa de longa data. Métodos existentes geralmente abordam apenas parte desse desafio, seja localizando regiões relevantes para a tarefa sem especificar movimentos executáveis, seja prevendo movimentos com escalabilidade limitada. Neste artigo, apresentamos o *ourmodel*, um passo em direção a um modelo fundamental de affordances para compreensão de funcionalidades. A partir de uma única observação RGB-D e uma descrição de tarefa em linguagem, o *ourmodel* prevê uma máscara funcional condicionada à tarefa (onde interagir) e uma curva de movimento 3D pós-contato (como interagir). Para apoiar a generalização em mundo aberto, construímos um pipeline de dados padronizado em larga escala que converte dados heterogêneos de robôs, humanos, simulações e escaneamentos do mundo real em um esquema compartilhado de affordances com linguagem, máscaras e rótulos de movimento 3D centrados no objeto. Avaliamos o *ourmodel* em três aspectos: para segmentação de affordances, o *ourmodel* supera todas as linhas de base com grande margem em 8 conjuntos de teste de 4 benchmarks, melhorando a média gIoU/cIoU em +23,9/+26,3; para previsão de pontos de contato, ele prevê pontos substancialmente mais precisos, com um ganho de taxa de acerto de 12,7–61,3% sobre a melhor linha de base; e para movimento 3D, alcança o melhor desempenho em todos os três conjuntos de teste. O *ourmodel* pode ser implantado para manipulação robótica em mundo real sem ajuste fino para a corporeidade do robô ou uso de heurísticas específicas de tarefa, demonstrando a capacidade de se adaptar a tarefas de affordances em mundo aberto. Página do projeto: https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN