RoboStressBench : évaluation comparative de la robustesse des VLM au stress visuel physique dans des scènes incarnées

Résumé

Les modèles de vision-langage (VLM) ont démontré une forte compréhension visuelle et sont de plus en plus déployés dans les systèmes d’IA incarnée, où une perception fiable en conditions réelles est essentielle. Cependant, les benchmarks existants évaluent les VLM à l’aide d’images propres ou de perturbations isolées, plutôt que de contraintes causées par la formation physique des scènes. Cette conception présente deux limites : elle ne couvre qu’un sous-ensemble restreint de contraintes visuelles quotidiennes, et certaines perturbations apparaissent rarement dans des scènes incarnées réalistes. Ce fossé soulève une question fondamentale : comment définir la contrainte visuelle de manière fondée, en capturant les divers facteurs rencontrés dans les environnements physiques ? Pour répondre à cette question, nous formulons la perception visuelle dans une perspective graphique inverse et introduisons RoboStressBench, un benchmark pour évaluer la robustesse des VLM face aux contraintes visuelles physiques dans les scènes incarnées. Inspiré par l’équation de rendu physique, RoboStressBench décompose la contrainte visuelle en quatre dimensions physiquement fondées : Matériau (M), Point de vue (V), Éclairage (L) et Géométrie (G). Cette conception permet à RoboStressBench de couvrir un large éventail de contraintes visuelles dans les environnements réels, tout en permettant une analyse contrôlée de leurs effets sur les capacités des VLM telles que la reconnaissance visuelle, le raisonnement et la planification. Grâce à des évaluations complètes des VLM de pointe, nous identifions des modes de défaillance spécifiques aux contraintes et révélons que différents facteurs physiques dégradent différentes capacités incarnées, souvent masquées par la précision agrégée. Nous introduisons en outre un solveur agentique sensible aux contraintes, qui détecte les facteurs de stress visuels et invoque des compétences d’édition visuelle avant le raisonnement, améliorant ainsi la robustesse dans les scénarios à fortes contraintes. Dans l’ensemble, RoboStressBench fournit un cadre d’évaluation fondé pour diagnostiquer et améliorer la perception des VLM sous contrainte physique réelle, soutenant le développement de systèmes d’IA incarnée plus fiables.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.