PokeGym : Un Benchmark Visuel à Long Terme pour les Modèles Vision-Langage

Résumé

Si les modèles vision-langage (VLM) ont réalisé des progrès remarquables dans la compréhension visuelle statique, leur déploiement dans des environnements incarnés 3D complexes reste sévèrement limité. Les benchmarks existants souffrent de quatre lacunes critiques : (1) les tâches de perception passive contournent les dynamiques interactives ; (2) les environnements 2D simplifiés ne permettent pas d'évaluer la perception de la profondeur ; (3) la fuite d'états privilégiés contourne le traitement visuel authentique ; et (4) l'évaluation humaine est prohibitivement coûteuse et non scalable. Nous présentons PokeGym, un benchmark visuel à long horizon instancié dans Pokemon Legends: Z-A, un jeu de rôle en monde ouvert 3D visuellement complexe. PokeGym impose un isolement strict au niveau du code : les agents opèrent uniquement sur des observations RVB brutes tandis qu'un évaluateur indépendant vérifie la réussite par scan mémoire, garantissant une prise de décision purement visuelle et une évaluation automatisée et scalable. Le benchmark comprend 30 tâches (30-220 étapes) couvrant la navigation, l'interaction et des scénarios mixtes, avec trois granularités d'instruction (Guidage Visuel, Guidage par Étapes, Objectif Seul) pour déconstruire systématiquement les capacités d'ancrage visuel, de raisonnement sémantique et d'exploration autonome. Notre évaluation révèle une limitation clé des VLM actuels : la récupération après blocage physique, plutôt que la planification de haut niveau, constitue le principal goulot d'étranglement, les blocages montrant une forte corrélation négative avec la réussite des tâches. De plus, nous mettons en évidence une divergence métacognitive : les modèles plus faibles souffrent principalement de Blocages Inconscients (ignorant leur confinement), tandis que les modèles avancés exhibent des Blocages Conscients (reconnaissant le confinement mais échouant à en sortir). Ces résultats soulignent la nécessité d'intégrer une intuition spatiale explicite dans les architectures de VLM. Le code et le benchmark seront disponibles sur GitHub.

English

While Vision-Language Models (VLMs) have achieved remarkable progress in static visual understanding, their deployment in complex 3D embodied environments remains severely limited. Existing benchmarks suffer from four critical deficiencies: (1) passive perception tasks circumvent interactive dynamics; (2) simplified 2D environments fail to assess depth perception; (3) privileged state leakage bypasses genuine visual processing; and (4) human evaluation is prohibitively expensive and unscalable. We introduce PokeGym, a visually-driven long-horizon benchmark instantiated within Pokemon Legends: Z-A, a visually complex 3D open-world Role-Playing Game. PokeGym enforces strict code-level isolation: agents operate solely on raw RGB observations while an independent evaluator verifies success via memory scanning, ensuring pure vision-based decision-making and automated, scalable assessment. The benchmark comprises 30 tasks (30-220 steps) spanning navigation, interaction, and mixed scenarios, with three instruction granularities (Visual-Guided, Step-Guided, Goal-Only) to systematically deconstruct visual grounding, semantic reasoning, and autonomous exploration capabilities. Our evaluation reveals a key limitation of current VLMs: physical deadlock recovery, rather than high-level planning, constitutes the primary bottleneck, with deadlocks showing a strong negative correlation with task success. Furthermore, we uncover a metacognitive divergence: weaker models predominantly suffer from Unaware Deadlocks (oblivious to entrapment), whereas advanced models exhibit Aware Deadlocks (recognizing entrapment yet failing to recover). These findings highlight the need to integrate explicit spatial intuition into VLM architectures. The code and benchmark will be available on GitHub.

PokeGym : Un Benchmark Visuel à Long Terme pour les Modèles Vision-Langage

PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

Résumé

Support