RoboStressBench: Evaluación comparativa de la robustez de los modelos de visión y lenguaje (VLM) al estrés visual físico en escenas encarnadas

Resumen

Los Modelos de Visión y Lenguaje (VLM, por sus siglas en inglés) han demostrado una sólida capacidad de comprensión visual y se implementan cada vez más en sistemas de IA corporizada, donde la percepción fiable en condiciones reales resulta esencial. Sin embargo, los benchmarks existentes evalúan los VLM utilizando imágenes limpias o perturbaciones aisladas, en lugar de los estreses causados por la formación física de escenas. Este planteamiento presenta dos limitaciones: abarca solo un subconjunto reducido de estreses visuales cotidianos, y algunas perturbaciones rara vez aparecen en escenas corporizadas realistas. Esta brecha plantea una cuestión fundamental: ¿cómo podemos definir el estrés visual de manera fundamentada que capture los diversos factores presentes en entornos físicos? Para abordar esta cuestión, formulamos la percepción visual desde una perspectiva de gráficos inversos e introducimos RoboStressBench, un benchmark para evaluar la robustez de los VLM frente al estrés visual físico en escenas corporizadas. Inspirado en la ecuación física de renderizado, RoboStressBench descompone el estrés visual en cuatro dimensiones físicamente fundamentadas: Material (M), Punto de Vista (V), Iluminación (L) y Geometría (G). Este diseño permite que RoboStressBench abarque un amplio espectro de estreses visuales en entornos del mundo real, a la vez que facilita un análisis controlado de sus efectos sobre capacidades de los VLM como el reconocimiento visual, el razonamiento y la planificación. Mediante evaluaciones exhaustivas de VLM de última generación, identificamos modos de fallo específicos para cada tipo de estrés y revelamos que diferentes factores físicos degradan distintas capacidades corporizadas, las cuales a menudo quedan ocultas por la precisión agregada. Además, introducimos un solucionador agéntico consciente del estrés que detecta factores estresantes visuales y activa habilidades de edición visual antes de razonar, mejorando la robustez en escenarios de alto estrés. En conjunto, RoboStressBench proporciona un marco de evaluación fundamentado para diagnosticar y mejorar la percepción de los VLM bajo estrés físico del mundo real, apoyando el desarrollo de sistemas de IA corporizada más fiables.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.