PokeGym: Ein visuell gesteuerter Benchmark für langfristige Aufgaben für Vision-Sprach-Modelle

Zusammenfassung

Während Vision-Language-Modelle (VLMs) bemerkenswerte Fortschritte im statischen visuellen Verständnis erzielt haben, ist ihr Einsatz in komplexen 3D-Eingebetteten-Umgebungen nach wie vor stark eingeschränkt. Bestehende Benchmarks leiden unter vier kritischen Mängeln: (1) passive Wahrnehmungsaufgaben umgehen interaktive Dynamiken; (2) vereinfachte 2D-Umgebungen versagen bei der Bewertung der Tiefenwahrnehmung; (3) das Einfließen privilegierter Zustandsdaten umgeht echte visuelle Verarbeitung; und (4) menschliche Evaluation ist unverhältnismäßig teuer und nicht skalierbar. Wir stellen PokeGym vor, einen visuell gesteuerten Benchmark für langfristige Handlungssequenzen, instanziiert in Pokemon Legends: Z-A, einem visuell komplexen 3D-Open-World-Rollenspiel. PokeGym erzwingt strikte Code-Level-Isolation: Agenten operieren ausschließlich auf Basis von Roh-RGB-Beobachtungen, während ein unabhängiger Evaluator den Erfolg durch Memory-Scanning verifiziert. Dies gewährleistet rein visuell basierte Entscheidungsfindung und automatisierte, skalierbare Bewertung. Der Benchmark umfasst 30 Aufgaben (30-220 Schritte), die Navigation, Interaktion und gemischte Szenarien abdecken, mit drei Instruktionsgranularitäten (visuell geführt, schrittweise geführt, nur-zielbasiert), um visuelle Verankerung, semantisches Reasoning und autonome Explorationsfähigkeiten systematisch zu dekonstruieren. Unsere Evaluation deckt eine zentrale Schwäche aktueller VLMs auf: Die Wiederherstellung aus physikalischen Deadlocks stellt – und nicht die High-Level-Planung – den primären Engpass dar, wobei Deadlocks eine starke negative Korrelation mit dem Aufgaben-erfolg zeigen. Des Weiteren zeigen wir eine metakognitive Diskrepanz auf: Schwächere Modelle scheitern vornehmlich an "Unbewussten Deadlocks" (keine Wahrnehmung der Einschränkung), whereas fortgeschrittene Modelle "Bewusste Deadlocks" aufweisen (Erkennen der Einschränkung, aber Scheitern an der Lösung). Diese Ergebnisse unterstreichen die Notwendigkeit, explizite räumliche Intuition in VLM-Architekturen zu integrieren. Der Code und der Benchmark werden auf GitHub verfügbar sein.

English

While Vision-Language Models (VLMs) have achieved remarkable progress in static visual understanding, their deployment in complex 3D embodied environments remains severely limited. Existing benchmarks suffer from four critical deficiencies: (1) passive perception tasks circumvent interactive dynamics; (2) simplified 2D environments fail to assess depth perception; (3) privileged state leakage bypasses genuine visual processing; and (4) human evaluation is prohibitively expensive and unscalable. We introduce PokeGym, a visually-driven long-horizon benchmark instantiated within Pokemon Legends: Z-A, a visually complex 3D open-world Role-Playing Game. PokeGym enforces strict code-level isolation: agents operate solely on raw RGB observations while an independent evaluator verifies success via memory scanning, ensuring pure vision-based decision-making and automated, scalable assessment. The benchmark comprises 30 tasks (30-220 steps) spanning navigation, interaction, and mixed scenarios, with three instruction granularities (Visual-Guided, Step-Guided, Goal-Only) to systematically deconstruct visual grounding, semantic reasoning, and autonomous exploration capabilities. Our evaluation reveals a key limitation of current VLMs: physical deadlock recovery, rather than high-level planning, constitutes the primary bottleneck, with deadlocks showing a strong negative correlation with task success. Furthermore, we uncover a metacognitive divergence: weaker models predominantly suffer from Unaware Deadlocks (oblivious to entrapment), whereas advanced models exhibit Aware Deadlocks (recognizing entrapment yet failing to recover). These findings highlight the need to integrate explicit spatial intuition into VLM architectures. The code and benchmark will be available on GitHub.

PokeGym: Ein visuell gesteuerter Benchmark für langfristige Aufgaben für Vision-Sprach-Modelle

PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

Zusammenfassung

Support