Panoramische Affordanzvorhersage

Zusammenfassung

Die Affordance-Vorhersage dient als entscheidende Brücke zwischen Wahrnehmung und Handlung in verkörpertter KI. Bisherige Forschung beschränkt sich jedoch auf Lochkameramodelle, die unter eingeschränkten Sichtfeldern und fragmentierten Beobachtungen leiden, wodurch häufig kritische ganzheitliche Umweltkontexte verloren gehen. In dieser Arbeit präsentieren wir die erste Untersuchung zur panoramischen Affordance-Vorhersage unter Verwendung von 360-Grad-Bildern, um globale räumliche Beziehungen und ein holistisches Szenenverständnis zu erfassen. Um diese neuartige Aufgabe zu ermöglichen, führen wir zunächst PAP-12K ein, einen groß angelegten Benchmark-Datensatz mit über 1.000 ultrahochauflösenden (12k, 11904 x 5952) Panoramabildern, die mehr als 12.000 sorgfältig annotierte QA-Paare und Affordance-Masken enthalten. Darüber hinaus schlagen wir PAP vor, eine trainingsfreie, grob-zu-fein-Pipeline, inspiriert vom menschlichen fovealen Sehsystem, um die ultrahohe Auflösung und starken Verzerrungen von Panoramabildern zu bewältigen. PAP nutzt rekursives visuelles Routing durch Grid-Prompting zur schrittweisen Zielortung, wendet einen adaptiven Blickmechanismus zur Korrektur lokaler geometrischer Verzerrungen an und verwendet eine kaskadierte Grounding-Pipeline zur Extraktion präziser instanzbasierter Masken. Experimentelle Ergebnisse auf PAP-12K zeigen, dass bestehende Affordance-Vorhersagemethoden für Standard-Perspektivbilder aufgrund der einzigartigen Herausforderungen der Panoramavision unter erheblichen Leistungseinbußen leiden und versagen. Im Gegensatz dazu überwindet der PAP-Rahmen diese Hindernisse effektiv, übertrifft state-of-the-art Baseline-Methoden deutlich und unterstreicht das immense Potenzial der Panoramawahrnehmung für robuste verkörperte Intelligenz.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.