Predizione delle Affordanze Panoramiche

Abstract

La previsione delle affordance costituisce un ponte cruciale tra percezione e azione nell'IA incarnata. Tuttavia, la ricerca esistente è limitata ai modelli di telecamere foro spillo, che soffrono di campi visivi ristretti e osservazioni frammentate, spesso tralasciando il contesto ambientale olistico critico. In questo articolo, presentiamo la prima esplorazione nella Previsione Panoramica delle Affordance, utilizzando immagini a 360 gradi per catturare le relazioni spaziali globali e una comprensione olistica della scena. Per facilitare questo nuovo compito, introduciamo innanzitutto PAP-12K, un dataset di benchmark su larga scala contenente oltre 1.000 immagini panoramiche a ultra-alta risoluzione (12k, 11904 x 5952) con oltre 12.000 coppie QA e maschere di affordance annotate accuratamente. Inoltre, proponiamo PAP, una pipeline free-training, da grossolana a fine, ispirata al sistema visivo foveale umano per affrontare l'ultra-alta risoluzione e la severa distorsione intrinseche delle immagini panoramiche. PAP impiega un routing visivo ricorsivo tramite prompt a griglia per localizzare progressivamente i target, applica un meccanismo di sguardo adattivo per rettificare le distorsioni geometriche locali e utilizza una pipeline di grounding a cascata per estrarre maschere precise a livello di istanza. I risultati sperimentali su PAP-12K rivelano che i metodi esistenti di previsione delle affordance progettati per immagini prospettiche standard subiscono un severo degrado delle prestazioni e falliscono a causa delle sfide uniche della visione panoramica. Al contrario, il framework PAP supera efficacemente questi ostacoli, superando significativamente i baseline state-of-the-art ed evidenziando l'enorme potenziale della percezione panoramica per un'intelligenza incarnata robusta.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.