¿Están los Modelos de Razonamiento en Video Listos para Salir al Mundo Real?

Resumen

En entornos de implementación real, los modelos de visión y lenguaje frecuentemente enfrentan perturbaciones como condiciones climáticas, oclusiones y movimiento de la cámara. Bajo estas condiciones, su capacidad de comprensión y razonamiento se degrada sustancialmente, revelando una brecha entre los entornos de evaluación controlados (es decir, no perturbados) y la robustez requerida en el mundo real. Para abordar esta limitación, proponemos ROVA, un novedoso marco de entrenamiento que mejora la robustez mediante el modelado de una recompensa de consistencia consciente de la robustez bajo corrupciones espacio-temporales. ROVA introduce una estrategia de entrenamiento en línea consciente de la dificultad que prioriza muestras informativas basándose en la capacidad evolutiva del modelo. Específicamente, reestima continuamente la dificultad de la muestra mediante una evaluación auto-reflexiva, permitiendo un entrenamiento adaptativo con una recompensa de consistencia consciente de la robustez. También presentamos PVRBench, un nuevo benchmark que inyecta perturbaciones del mundo real en conjuntos de datos de video embodado para evaluar tanto la precisión como la calidad del razonamiento bajo disturbios realistas. Evaluamos ROVA y los modelos de referencia en PVRBench, UrbanVideo y VisBench, donde los modelos de código abierto y propietarios experimentan caídas de hasta el 35% y 28% en precisión y razonamiento bajo perturbaciones realistas. ROVA mitiga efectivamente la degradación del rendimiento, aumentando la precisión relativa en al menos un 24% y el razonamiento en más de un 9% en comparación con los modelos base (QWen2.5/3-VL, InternVL2.5, Embodied-R). Estas mejoras se transfieren a benchmarks estándar en condiciones limpias, produciendo mejoras consistentes.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

¿Están los Modelos de Razonamiento en Video Listos para Salir al Mundo Real?

Are Video Reasoning Models Ready to Go Outside?

Resumen

Support