Панорамное предсказание аффордансов

Аннотация

Прогнозирование аффордансов служит критически важным связующим звеном между восприятием и действием в воплощенном искусственном интеллекте. Однако существующие исследования ограничиваются моделями камер-обскур, которые страдают от узких полей обзора и фрагментированных наблюдений, часто упуская критически важный целостный контекст окружающей среды. В данной статье мы представляем первое исследование в области панорамного прогнозирования аффордансов, использующее 360-градусные изображения для захвата глобальных пространственных взаимосвязей и целостного понимания сцены. Для содействия этой новой задаче мы сначала представляем PAP-12K, крупномасштабный эталонный набор данных, содержащий более 1000 сверхвысокого разрешения (12k, 11904 x 5952) панорамных изображений с более чем 12 000 тщательно аннотированных пар "вопрос-ответ" и масок аффордансов. Кроме того, мы предлагаем PAP, свободный от обучения, поэтапный конвейер, вдохновленный фовеальной зрительной системой человека, для решения проблем сверхвысокого разрешения и значительных дисторсий, присущих панорамным изображениям. PAP использует рекурсивную визуальную маршрутизацию посредством грид-подсказок для постепенного определения местоположения целей, применяет адаптивный механизм "взгляда" для коррекции локальных геометрических искажений и использует каскадный конвейер grounding для извлечения точных масок на уровне экземпляров. Результаты экспериментов на PAP-12K показывают, что существующие методы прогнозирования аффордансов, разработанные для стандартных перспективных изображений, демонстрируют серьезную деградацию производительности и терпят неудачу из-за уникальных проблем панорамного зрения. В отличие от них, фреймворк PAP эффективно преодолевает эти препятствия, значительно превосходя современные базовые методы и подчеркивая огромный потенциал панорамного восприятия для создания надежного воплощенного интеллекта.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.