AFUN: К фундаментальной модели аффорданса для понимания функциональности

Аннотация

Понимание аффордансов связывает визуальное восприятие с физическими действиями, выступая в качестве объяснимого интерфейса для роботизированных манипуляций в открытых и неструктурированных реальных средах. Однако создание фундаментальной модели аффордансов, которая не только понимает, где и как должно происходить взаимодействие, но и обобщается на разнообразные среды, объекты и задачи, остается давней исследовательской проблемой. Существующие методы обычно решают лишь часть этой задачи: либо локализуют релевантные задаче области без указания выполнимого движения, либо предсказывают движение, но с ограниченной масштабируемостью. В данной статье мы представляем нашу модель — шаг к созданию фундаментальной модели аффордансов для понимания функциональности. На основе одного RGB-наблюдения и текстового описания задачи наша модель предсказывает функциональную маску с учетом задачи (где взаимодействовать) и трехмерную кривую движения после контакта (как взаимодействовать). Для поддержки обобщения на открытый мир мы построили крупномасштабный стандартизированный конвейер данных, который преобразует разнородные данные от роботов, людей, симуляций и сканирования реального мира в единую схему аффордансов с языковыми метками, масками и объектно-центрированными трехмерными метками движения. Мы оцениваем нашу модель по трем аспектам: для сегментации аффордансов наша модель значительно превосходит все базовые методы на 8 тестовых наборах из 4 эталонов, улучшая средний gIoU/cIoU на +23,9/+26,3; для предсказания точек контакта она дает существенно более точные точки с приростом точности попадания на 12,7–61,3% по сравнению с лучшим базовым методом; а для трехмерного движения она достигает наилучших результатов на всех трех тестовых наборах. Наша модель может быть развернута для реальной роботизированной манипуляции без дообучения под конкретное воплощение робота или использования эвристик, специфичных для задачи, демонстрируя способность адаптироваться к задачам аффордансов в открытом мире. Страница проекта: https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN