Panoramisch Affordance-voorspelling

Samenvatting

Affordantievoorspelling fungeert als een cruciale brug tussen perceptie en actie in belichaamde AI. Bestaand onderzoek is echter beperkt tot pinhole-cameramodellen, die kampen met een smal gezichtsveld (Field of View, FoV) en gefragmenteerde waarnemingen, waarbij vaak de kritieke holistische context van de omgeving ontbreekt. In dit artikel presenteren we de eerste verkenning van Panoramische Affordantievoorspelling, waarbij we 360-graden beelden gebruiken om globale ruimtelijke relaties en een holistisch begrip van de scène vast te leggen. Om deze nieuwe taak mogelijk te maken, introduceren we eerst PAP-12K, een grootschalige benchmarkdataset met meer dan 1.000 ultrahoogresolutie (12k, 11904 x 5952) panoramische afbeeldingen, voorzien van meer dan 12.000 zorgvuldig geannoteerde QA-paren en affordantiemaskers. Verder stellen we PAP voor, een trainingsvrije, coarse-to-fine pijplijn, geïnspireerd op het menselijke foveale visuele systeem, om de inherente uitdagingen van ultrahoogresolutie en ernstige vervorming in panoramische beelden aan te pakken. PAP gebruikt recursieve visuele routing via grid prompting om doelen progressief te lokaliseren, past een adaptief gaze-mechanisme toe om lokale geometrische vervormingen te corrigeren, en benut een cascade-grounding pijplijn om precieze instantieniveau maskers te extraheren. Experimentele resultaten op PAP-12K tonen aan dat bestaande affordantievoorspellingsmethoden, ontworpen voor standaard perspectiefbeelden, ernstige prestatievermindering ondervinden en falen door de unieke uitdagingen van panoramisch zicht. Daarentegen overwint het PAP-raamwerk deze obstakels effectief, presteert het significant beter dan state-of-the-art baseline-methoden en benadrukt het het immense potentieel van panoramische perceptie voor robuuste belichaamde intelligentie.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.