AFUN: Auf dem Weg zu einem Affordanz-Grundlagenmodell für das Funktionsverständnis

Zusammenfassung

Das Verständnis von Affordances verbindet visuelle Wahrnehmung und physische Aktion und dient als erklärbare Schnittstelle für die Roboter-Manipulation in offenen, unstrukturierten realen Umgebungen. Dennoch bleibt die Entwicklung eines Affordance-Grundlagenmodells, das nicht nur versteht, wo und wie die Interaktion stattfinden sollte, sondern auch über verschiedene Umgebungen, Objekte und Aufgaben hinweg generalisiert, eine langjährige Forschungsherausforderung. Bisherige Methoden adressieren typischerweise nur einen Teil dieser Herausforderung: Sie lokalisieren entweder aufgabenrelevante Regionen, ohne ausführbare Bewegungen zu spezifizieren, oder sagen Bewegungen vorher, jedoch mit begrenzter Skalierbarkeit. In diesem Papier präsentieren wir unser Modell, einen Schritt in Richtung eines Affordance-Grundlagenmodells für das Verständnis von Funktionalität. Aus einer einzelnen RGB-D-Beobachtung und einer sprachlichen Aufgabenbeschreibung sagt unser Modell eine aufgabenspezifische funktionale Maske (wo interagiert werden soll) und eine 3D-Bewegungskurve nach Kontakt (wie interagiert werden soll) vorher. Zur Unterstützung der Generalisierung in offenen Welten bauen wir eine groß angelegte, standardisierte Datenpipeline auf, die heterogene Roboter-, Human-, Simulations- und reale Scandaten in ein gemeinsames Affordance-Schema mit Sprache, Masken und objektzentrierten 3D-Bewegungslabels überführt. Wir evaluieren unser Modell aus drei Perspektiven: Für die Affordance-Segmentierung übertrifft unser Modell alle Basislinien mit großem Abstand über 8 Testdatensätze aus 4 Benchmarks und verbessert den mittleren gIoU/cIoU um +23,9/+26,3; für die Kontaktpunktvorhersage sagt es wesentlich genauere Punkte voraus, mit einem Trefferratengewinn von 12,7–61,3 % gegenüber der besten Basislinie; und für die 3D-Bewegung erzielt es die beste Leistung auf allen drei Testdatensätzen. Unser Modell kann für reale Roboter-Manipulationen eingesetzt werden, ohne eine Feinanpassung an die Roboter-Körperlichkeit oder aufgabenspezifische Heuristiken, und demonstriert die Fähigkeit, sich an Affordance-Aufgaben in offenen Welten anzupassen. Projektseite: https://www.zhaoningwang.com/AFUN

English

Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN