Predicción de Posibilidades de Interacción Panorámica

Resumen

La predicción de affordances constituye un puente crítico entre la percepción y la acción en la IA corporeizada. Sin embargo, la investigación existente se limita a modelos de cámara estenopeica, que adolecen de campos de visión (FoV) estrechos y observaciones fragmentadas, perdiendo a menudo el contexto ambiental holístico crítico. En este artículo, presentamos la primera exploración en Predicción de Affordances Panorámicas, utilizando imágenes de 360 grados para capturar relaciones espaciales globales y una comprensión holística de la escena. Para facilitar esta novedosa tarea, primero presentamos PAP-12K, un conjunto de datos de referencia a gran escala que contiene más de 1,000 imágenes panorámicas de ultra alta resolución (12k, 11904 x 5952) con más de 12,000 pares de preguntas y respuestas (QA) y máscaras de affordance cuidadosamente anotadas. Además, proponemos PAP, un pipeline de entrenamiento libre, de grueso a fino, inspirado en el sistema visual foveal humano, para abordar la ultra alta resolución y la severa distorsión inherente a las imágenes panorámicas. PAP emplea un enrutamiento visual recursivo mediante indicaciones de cuadrícula para localizar progresivamente los objetivos, aplica un mecanismo de mirada adaptativa para rectificar las distorsiones geométricas locales y utiliza un pipeline de anclaje en cascada para extraer máscaras precisas a nivel de instancia. Los resultados experimentales en PAP-12K revelan que los métodos existentes de predicción de affordances diseñados para imágenes perspectivas estándar sufren una severa degradación del rendimiento y fallan debido a los desafíos únicos de la visión panorámica. Por el contrario, el marco PAP supera eficazmente estos obstáculos, superando significativamente a los baselines de última generación y destacando el inmenso potencial de la percepción panorámica para una inteligencia corporeizada robusta.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.