AFUN: Hacia un modelo fundacional de affordance para la comprensión de la funcionalidad

Resumen

La comprensión de las affordances establece un puente entre la percepción visual y la acción física, sirviendo como una interfaz explicable para la manipulación robótica en entornos reales abiertos y no estructurados. Sin embargo, construir un modelo fundacional de affordances que no solo entienda dónde y cómo debe ocurrir la interacción, sino que también generalice a través de entornos, objetos y tareas diversas, sigue siendo un desafío de investigación de larga data. Los métodos existentes típicamente abordan solo una parte de este desafío: o localizan regiones relevantes para la tarea sin especificar el movimiento ejecutable, o predicen el movimiento pero con escalabilidad limitada. En este artículo, presentamos nuestromodelo, un paso hacia un modelo fundacional de affordances para la comprensión funcional. A partir de una única observación RGB-D y una descripción lingüística de la tarea, nuestromodelo predice una máscara funcional condicionada a la tarea (dónde interactuar) y una curva de movimiento 3D posterior al contacto (cómo interactuar). Para apoyar la generalización en entornos abiertos, construimos un pipeline de datos estandarizado a gran escala que convierte datos heterogéneos de robots, humanos, simulaciones y escaneos del mundo real en un esquema compartido de affordances con lenguaje, máscaras y etiquetas de movimiento 3D centradas en el objeto. Evaluamos nuestromodelo desde tres aspectos: en segmentación de affordances, nuestromodelo supera a todas las líneas base por un amplio margen en 8 conjuntos de prueba de 4 benchmarks, mejorando el gIoU/cIoU medio en +23.9/+26.3; en predicción de puntos de contacto, predice puntos sustancialmente más precisos, con una ganancia en la tasa de aciertos del 12.7–61.3% sobre la mejor línea base; y en movimiento 3D, logra el mejor rendimiento en los tres conjuntos de prueba. Nuestromodelo puede desplegarse para manipulación robótica en el mundo real sin ajuste fino para la corporalidad del robot ni el uso de heurísticas específicas de la tarea, demostrando la capacidad de adaptarse a tareas de affordances en entornos abiertos. Página del proyecto: https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN