RoboStressBench: Avaliação comparativa da robustez do VLM a estresse visual físico em cenas corporizadas

Resumo

Modelos de Visão-Linguagem (VLMs) demonstram forte compreensão visual e estão cada vez mais empregados em sistemas de IA incorporada, onde a percepção confiável sob condições reais é essencial. No entanto, os referenciais existentes avaliam VLMs utilizando imagens limpas ou perturbações isoladas, em vez de tensões causadas pela formação de cenas físicas. Esse projeto apresenta duas limitações: abrange apenas um subconjunto restrito de tensões visuais cotidianas, e algumas perturbações raramente aparecem em cenas incorporadas realistas. Essa lacuna levanta uma questão fundamental: como definir estresse visual de forma fundamentada que capture os diversos fatores encontrados em ambientes físicos? Para abordar essa questão, formulamos a percepção visual a partir de uma perspectiva de gráficos inversos e introduzimos o RoboStressBench, um referencial para avaliar a robustez de VLMs ao estresse visual físico em cenas incorporadas. Inspirado pela equação de renderização física, o RoboStressBench decompõe o estresse visual em quatro dimensões fisicamente fundamentadas: Material (M), Ponto de Vista (V), Iluminação (L) e Geometria (G). Esse projeto permite que o RoboStressBench cubra uma ampla gama de estresses visuais em ambientes do mundo real, ao mesmo tempo que possibilita uma análise controlada de seus efeitos sobre capacidades dos VLMs, como reconhecimento visual, raciocínio e planejamento. Por meio de avaliações abrangentes de VLMs de última geração, identificamos modos de falha específicos a cada estresse e revelamos que diferentes fatores físicos degradam diferentes capacidades incorporadas, frequentemente obscurecidas pela precisão agregada. Introduzimos ainda um solucionador agentivo consciente de estresse que detecta estressores visuais e invoca habilidades de edição visual antes do raciocínio, melhorando a robustez em cenários de alto estresse. No geral, o RoboStressBench fornece um referencial de avaliação fundamentado para diagnosticar e melhorar a percepção de VLMs sob estresse físico do mundo real, apoiando o desenvolvimento de sistemas de IA incorporada mais confiáveis.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.