RoboStressBench: Benchmarking der VLM-Robustheit gegenüber physischem visuellem Stress in verkörperten Szenen

Zusammenfassung

Vision-Sprach-Modelle (VLMs) zeigen ein starkes visuelles Verständnis und werden zunehmend in verkörperten KI-Systemen eingesetzt, bei denen zuverlässige Wahrnehmung unter realen Bedingungen unerlässlich ist. Bestehende Benchmarks bewerten VLMs jedoch anhand von sauberen Bildern oder isolierten Störungen, nicht aber anhand von Belastungen, die durch die physikalische Szenenentstehung verursacht werden. Dieses Design hat zwei Einschränkungen: Es deckt nur eine enge Teilmenge alltäglicher visueller Belastungen ab, und einige Störungen treten in realistischen verkörperten Szenen selten auf. Diese Lücke wirft eine grundlegende Frage auf: Wie können wir visuelle Belastung prinzipiell definieren, sodass sie die vielfältigen Faktoren erfasst, die in physischen Umgebungen auftreten? Um diese Frage zu beantworten, formulieren wir visuelle Wahrnehmung aus einer inversen Grafikperspektive und führen RoboStressBench ein, einen Benchmark zur Bewertung der Robustheit von VLMs gegenüber physikalischen visuellen Belastungen in verkörperten Szenen. Inspiriert von der physikalischen Rendering-Gleichung zerlegt RoboStressBench visuelle Belastung in vier physikalisch fundierte Dimensionen: Material (M), Blickwinkel (V), Beleuchtung (L) und Geometrie (G). Dieses Design ermöglicht es RoboStressBench, ein breites Spektrum visueller Belastungen in realen Umgebungen abzudecken und gleichzeitig eine kontrollierte Analyse ihrer Auswirkungen auf VLM-Fähigkeiten wie visuelle Erkennung, Schlussfolgern und Planung zu ermöglichen. Durch umfassende Bewertungen modernster VLMs identifizieren wir belastungsspezifische Fehlermodi und zeigen, dass verschiedene physikalische Faktoren unterschiedliche verkörperte Fähigkeiten beeinträchtigen, die oft durch aggregierte Genauigkeit verdeckt werden. Wir führen weiterhin einen belastungsbewussten agentischen Löser ein, der visuelle Stressoren erkennt und vor dem Schlussfolgern visuelle Bearbeitungsfähigkeiten aufruft, um die Robustheit in Stressszenarien zu verbessern. Insgesamt bietet RoboStressBench einen prinzipiellen Bewertungsrahmen zur Diagnose und Verbesserung der VLM-Wahrnehmung unter realem physikalischen Stress und unterstützt die Entwicklung zuverlässigerer verkörperter KI-Systeme.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.