Готовы ли модели видео-рассуждений к работе в реальных условиях?

Аннотация

На практике визуально-языковые модели часто сталкиваются с помехами, такими как погодные условия, окклюзии и движение камеры. В таких условиях их способность к пониманию и рассуждению значительно ухудшается, что выявляет разрыв между чистыми контролируемыми (т.е. незашумленными) условиями оценки и реальной устойчивостью. Для преодоления этого ограничения мы предлагаем ROVA — новую структуру обучения, которая повышает робастность за счет моделирования согласованного вознаграждения, учитывающего устойчивость, в условиях пространственно-временных искажений. ROVA внедряет стратегию онлайн-обучения с учетом сложности, которая приоритизирует информативные примеры на основе эволюционирующих возможностей модели. В частности, она непрерывно переоценивает сложность примеров с помощью саморефлексивной оценки, обеспечивая адаптивное обучение с согласованным вознаграждением, ориентированным на устойчивость. Мы также представляем PVRBench — новый бенчмарк, который вносит реалистичные помехи в эмбеддед-видеоданные для оценки как точности, так и качества рассуждений в условиях реальных искажений. Мы оцениваем ROVA и базовые модели на PVRBench, UrbanVideo и VisBench, где модели с открытым исходным кодом и проприетарные модели демонстрируют снижение точности и качества рассуждений до 35% и 28% соответственно при реалистичных помехах. ROVA эффективно снижает деградацию производительности, повышая относительную точность не менее чем на 24% и качество рассуждений более чем на 9% по сравнению с базовыми моделями (QWen2.5/3-VL, InternVL2.5, Embodied-R). Эти улучшения переносятся на чистые стандартные бенчмарки, обеспечивая стабильный прогресс.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

Готовы ли модели видео-рассуждений к работе в реальных условиях?

Are Video Reasoning Models Ready to Go Outside?

Аннотация

Support