ESPIRE: Ein Diagnose-Benchmark für räumliches Schlussfolgern von Vision-Sprach-Modellen in verkörperten Umgebungen

Zusammenfassung

Ein aktueller Trend bei Vision-Sprach-Modellen (VLMs) ist die Verbesserung ihres räumlichen Verständnisses für eingebettete Anwendungsbereiche. Trotz Fortschritten waren bestehende Evaluierungen sowohl in ihrer Methodik als auch in ihrer Abdeckung begrenzt, was eine rasche, iterative Modellentwicklung behinderte. Um diese Einschränkungen zu adressieren, schlagen wir ESPIRE vor, einen diagnostischen Benchmark für räumliches Schlussfolgern in eingebetteten Systemen. ESPIRE bietet eine simulierte Welt, die VLMs physikalisch verankert und sie an robotischen Aufgaben mit Fokus auf räumliches Schlussfolgern evaluiert, wodurch die Lücke zwischen Evaluation und realem Einsatz verringert wird. Um VLMs für robotische Aufgaben anzupassen, zerlegen wir jede Aufgabe in Lokalisierung und Ausführung und formulieren beide als generative Probleme – im starken Gegensatz zu vorherrschenden diskriminativen Evaluierungen (z.B. mittels visueller Fragebeantwortung), die auf Ablenkoptionen setzen und die Ausführung vernachlässigen. Diese Zerlegung ermöglicht zudem eine fein granulare Analyse, die über passives räumliches Schlussfolgern hinaus hin zum schlussfolgernden Handeln geht. Wir gestalten ESPIRE systematisch sowohl auf Instruktionsebene als auch auf Umgebungsebene, um eine breite Abdeckung räumlicher Schlussfolgerszenarien zu gewährleisten. Wir nutzen ESPIRE, um eine Reihe modernster VLMs zu diagnostizieren und liefern eine tiefgehende Analyse ihres räumlichen Schlussfolgerungsverhaltens.

English

A recent trend in vision-language models (VLMs) has been to enhance their spatial cognition for embodied domains. Despite progress, existing evaluations have been limited both in paradigm and in coverage, hindering rapid, iterative model development. To address these limitations, we propose ESPIRE, a diagnostic benchmark for embodied spatial reasoning. ESPIRE offers a simulated world that physically grounds VLMs and evaluates them on spatial-reasoning-centric robotic tasks, thus narrowing the gap between evaluation and real-world deployment. To adapt VLMs to robotic tasks, we decompose each task into localization and execution, and frame both as generative problems, in stark contrast to predominant discriminative evaluations (e.g., via visual-question answering) that rely on distractors and discard execution. This decomposition further enables a fine-grained analysis beyond passive spatial reasoning toward reasoning to act. We systematically design ESPIRE both at the instruction level and at the environment level, ensuring broad coverage of spatial reasoning scenarios. We use ESPIRE to diagnose a range of frontier VLMs and provide in-depth analysis of their spatial reasoning behaviors.

ESPIRE: Ein Diagnose-Benchmark für räumliches Schlussfolgern von Vision-Sprach-Modellen in verkörperten Umgebungen

ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Zusammenfassung

Support