Les modèles de raisonnement vidéo sont-ils prêts à sortir du laboratoire ?

Résumé

En situation de déploiement réel, les modèles vision-langage sont souvent confrontés à des perturbations telles que les conditions météorologiques, les occlusions et les mouvements de la caméra. Dans de telles conditions, leur compréhension et leur raisonnement se dégradent considérablement, révélant un écart entre les paramètres d'évaluation propres et contrôlés (c'est-à-dire non perturbés) et la robustesse requise dans le monde réel. Pour remédier à cette limitation, nous proposons ROVA, un nouveau cadre d'entraînement qui améliore la robustesse en modélisant une récompense de cohérence prenant en compte la robustesse sous l'effet de corruptions spatio-temporelles. ROVA introduit une stratégie d'entraînement en ligne adaptée à la difficulté qui priorise les échantillons informatifs en fonction des capacités évolutives du modèle. Plus précisément, il réévalue continuellement la difficulté des échantillons via une évaluation autoréflexive, permettant un entraînement adaptatif avec une récompense de cohérence axée sur la robustesse. Nous présentons également PVRBench, un nouveau benchmark qui injecte des perturbations du monde réel dans des ensembles de données vidéo incarnées pour évaluer à la fois la précision et la qualité du raisonnement sous des perturbations réalistes. Nous évaluons ROVA et les modèles de référence sur PVRBench, UrbanVideo et VisBench, où les modèles open source et propriétaires subissent des baisses allant jusqu'à 35 % en précision et 28 % en raisonnement sous des perturbations réalistes. ROVA atténue efficacement cette dégradation des performances, améliorant la précision relative d'au moins 24 % et le raisonnement de plus de 9 % par rapport aux modèles de référence (QWen2.5/3-VL, InternVL2.5, Embodied-R). Ces gains se transfèrent aux benchmarks standards propres, produisant des améliorations constantes.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

Les modèles de raisonnement vidéo sont-ils prêts à sortir du laboratoire ?

Are Video Reasoning Models Ready to Go Outside?

Résumé

Support