RoboStressBench: Benchmarken van VLM-robuustheid tegen fysieke visuele stress in belichaamde scènes

Samenvatting

Visie-Taalmodellen (VLMs) hebben een sterk visueel begrip getoond en worden steeds vaker ingezet in belichaamde AI-systemen, waar betrouwbare waarneming onder reële omstandigheden essentieel is. Echter, bestaande benchmarks beoordelen VLMs met behulp van schone afbeeldingen of geïsoleerde verstoringen in plaats van stressfactoren veroorzaakt door fysieke scènevorming. Dit ontwerp heeft twee beperkingen: het bestrijkt slechts een smalle subset van alledaagse visuele stressfactoren, en sommige verstoringen komen zelden voor in realistische belichaamde scènes. Deze kloof roept een fundamentele vraag op: hoe kunnen we visuele stress op een principiële manier definiëren die de diverse factoren in fysieke omgevingen omvat? Om deze vraag te beantwoorden, formuleren we visuele perceptie vanuit een invers grafisch perspectief en introduceren we RoboStressBench, een benchmark voor het evalueren van VLM-robustheid tegen fysieke visuele stress in belichaamde scènes. Geïnspireerd door de fysische rendervergelijking, ontleedt RoboStressBench visuele stress in vier fysiek gefundeerde dimensies: Materiaal (M), Gezichtspunt (V), Verlichting (L) en Geometrie (G). Dit ontwerp stelt RoboStressBench in staat een breed scala aan visuele stressfactoren in realistische omgevingen te bestrijken, terwijl het gecontroleerde analyse mogelijk maakt van hun effecten op VLM-capaciteiten zoals visuele herkenning, redeneren en plannen. Door middel van uitgebreide evaluaties van state-of-the-art VLMs identificeren we stress-specifieke faalwijzen en onthullen we dat verschillende fysieke factoren verschillende belichaamde capaciteiten aantasten, die vaak worden verborgen door geaggregeerde nauwkeurigheid. We introduceren verder een stressbewuste agentische oplosser die visuele stressoren detecteert en visuele bewerkingsvaardigheden oproept vóór het redeneren, waardoor de robuustheid in hoogstress-scenario's wordt verbeterd. Over het algemeen biedt RoboStressBench een principieel evaluatiekader voor het diagnosticeren en verbeteren van VLM-waarneming onder fysieke stress in de echte wereld, ter ondersteuning van de ontwikkeling van betrouwbaardere belichaamde AI-systemen.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.