Previsão de Acessibilidade Panorâmica

Resumo

A previsão de affordances serve como uma ponte crítica entre percepção e ação na IA corporificada. No entanto, a pesquisa existente está confinada a modelos de câmera pinhole, que sofrem com Campos de Visão (FoV) estreitos e observações fragmentadas, frequentemente perdendo o contexto ambiental holístico crítico. Neste artigo, apresentamos a primeira exploração em Previsão de Affordances Panorâmica, utilizando imagens de 360 graus para capturar relações espaciais globais e compreensão holística da cena. Para facilitar esta nova tarefa, primeiro introduzimos o PAP-12K, um conjunto de dados de referência em larga escala contendo mais de 1.000 imagens panorâmicas de ultra-alta resolução (12k, 11904 x 5952) com mais de 12 mil pares de perguntas e respostas cuidadosamente anotados e máscaras de affordance. Além disso, propomos o PAP, um pipeline de treinamento gratuito, do grosso ao fino, inspirado no sistema visual foveal humano para lidar com a ultra-alta resolução e a distorção severa inerente às imagens panorâmicas. O PAP emprega roteamento visual recursivo via grid prompting para localizar progressivamente os alvos, aplica um mecanismo de gaze adaptativo para retificar distorções geométricas locais e utiliza um pipeline de aterramento em cascata para extrair máscaras precisas a nível de instância. Resultados experimentais no PAP-12K revelam que os métodos existentes de previsão de affordances projetados para imagens perspectivas padrão sofrem uma severa degradação de desempenho e falham devido aos desafios únicos da visão panorâmica. Em contraste, a estrutura PAP supera efetivamente esses obstáculos, superando significativamente as linhas de base state-of-the-art e destacando o imenso potencial da percepção panorâmica para uma inteligência corporificada robusta.

English

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.