Prédiction des Affordances Panoramiques

Résumé

La prédiction d'affordance constitue un pont essentiel entre la perception et l'action dans l'IA incarnée. Cependant, les recherches existantes se limitent aux modèles de caméra sténopé, qui souffrent de champs de vision étroits et d'observations fragmentées, omettant souvent le contexte environnemental holistique critique. Dans cet article, nous présentons la première exploration de la Prédiction d'Affordance Panoramique, utilisant l'imagerie à 360 degrés pour capturer les relations spatiales globales et la compréhension holistique de la scène. Pour faciliter cette nouvelle tâche, nous introduisons d'abord PAP-12K, un jeu de données de référence à grande échelle contenant plus de 1 000 images panoramiques en ultra-haute résolution (12k, 11904 x 5952) avec plus de 12 000 paires de questions-réponses soigneusement annotées et des masques d'affordance. De plus, nous proposons PAP, une méthode sans apprentissage, inspirée du système visuel fovéal humain, qui suit une approche du grossier au fin pour traiter la résolution ultra-élevée et la distorsion sévère inhérentes aux images panoramiques. PAP emploie un routage visuel récursif via des invites de grille pour localiser progressivement les cibles, applique un mécanisme de regard adaptatif pour rectifier les distorsions géométriques locales, et utilise un pipeline de mise en correspondance en cascade pour extraire des masques précis au niveau de l'instance. Les résultats expérimentaux sur PAP-12K révèlent que les méthodes existantes de prédiction d'affordance conçues pour les images perspectives standard subissent une dégradation sévère des performances et échouent face aux défis uniques de la vision panoramique. En revanche, le cadre PAP surmonte efficacement ces obstacles, surpassant significativement les meilleures méthodes de référence et soulignant le potentiel immense de la perception panoramique pour une intelligence incarnée robuste.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.