RoboStressBench: Бенчмаркинг устойчивости VLM к физическому визуальному стрессу в воплощенных сценах

Аннотация

Модели зрения-языка (VLM) демонстрируют высокую способность к визуальному пониманию и все чаще применяются в воплощенных системах ИИ, где надежное восприятие в реальных условиях имеет решающее значение. Однако существующие эталоны оценивают VLM с использованием чистых изображений или изолированных возмущений, а не стрессов, вызванных физическим формированием сцены. Такая конструкция имеет два ограничения: она охватывает лишь узкое подмножество повседневных визуальных стрессов, а некоторые возмущения редко встречаются в реалистичных воплощенных сценах. Этот пробел ставит фундаментальный вопрос: как можно принципиально определить визуальный стресс, чтобы охватить разнообразные факторы, встречающиеся в физических средах? Чтобы ответить на этот вопрос, мы формулируем визуальное восприятие с точки зрения обратной графики и представляем RoboStressBench — эталон для оценки устойчивости VLM к физическому визуальному стрессу в воплощенных сценах. Вдохновленный физическим уравнением рендеринга, RoboStressBench разлагает визуальный стресс на четыре физически обоснованных измерения: материал (M), точка обзора (V), освещение (L) и геометрия (G). Такая конструкция позволяет RoboStressBench охватывать широкий спектр визуальных стрессов в реальных условиях, одновременно обеспечивая контролируемый анализ их влияния на способности VLM, такие как визуальное распознавание, рассуждение и планирование. В ходе всесторонней оценки современных VLM мы выявляем специфические для стресса режимы отказов и обнаруживаем, что разные физические факторы по-разному ухудшают различные воплощенные способности, что часто скрывается совокупной точностью. Мы также представляем агентный решатель, учитывающий стресс, который обнаруживает визуальные стрессоры и вызывает навыки визуального редактирования перед рассуждением, повышая устойчивость в сценариях с высоким стрессом. В целом, RoboStressBench предоставляет принципиальную основу для оценки диагностики и улучшения восприятия VLM в условиях реального физического стресса, поддерживая разработку более надежных воплощенных систем ИИ.

English

Vision-Language Models (VLMs) have shown strong visual understanding and are increasingly deployed in embodied AI systems, where reliable perception under real conditions is essential. However, existing benchmarks assess VLMs using clean images or isolated perturbations rather than stresses caused by physical scene formation. This design has two limitations: it covers only a narrow subset of everyday visual stresses, and some perturbations rarely appear in realistic embodied scenes. This gap raises a fundamental question: how can we define visual stress in a principled way that captures the diverse factors encountered in physical environments? To address this question, we formulate visual perception from an inverse graphics perspective and introduce RoboStressBench, a benchmark for evaluating VLM robustness to physical visual stress in embodied scenes. Inspired by the physical rendering equation, RoboStressBench decomposes visual stress into four physically grounded dimensions: Material (M), Viewpoint (V), Lighting (L), and Geometry (G). This design enables RoboStressBench to cover a broad range of visual stresses in real-world environments, while allowing controlled analysis of their effects on VLM capabilities such as visual recognition, reasoning, and planning. Through comprehensive evaluations of state-of-the-art VLMs, we identify stress-specific failure modes and reveal that different physical factors degrade different embodied capabilities, which are often obscured by aggregate accuracy. We further introduce a stress-aware agentic solver that detects visual stressors and invokes visual-editing skills before reasoning, improving robustness in high-stress scenarios. Overall, RoboStressBench provides a principled evaluation framework for diagnosing and improving VLM perception under real-world physical stress, supporting the development of more reliable embodied AI systems.