Zijn videoredeneermodellen klaar voor de buitenwereld?

Samenvatting

In praktijktoepassingen worden vision-language-modellen vaak geconfronteerd met verstoringen zoals weersinvloeden, occlusie en camerabeweging. Onder dergelijke omstandigheden verslechteren hun begrip en redeneervermogen aanzienlijk, wat een kloof blootlegt tussen schone, gecontroleerde (d.w.z. onverstoorde) evaluatieomgevingen en robuustheid in de echte wereld. Om deze beperking aan te pakken, stellen we ROVA voor, een nieuwe trainingsframework die de robuustheid verbetert door het modelleren van een robuustheidsbewuste consistentiebeloning onder spatio-temporele corrupties. ROVA introduceert een moeilijkheidsgraad-bewuste onlinetrainingsstrategie die informatieve voorbeelden prioritiseert op basis van de evoluerende capaciteit van het model. Concreet herschat het continu de moeilijkheidsgraad van voorbeelden via zelfreflectieve evaluatie, wat adaptieve training mogelijk maakt met een robuustheidsbewuste consistentiebeloning. We introduceren ook PVRBench, een nieuwe benchmark die real-world verstoringen injecteert in belichaamde videodatasets om zowel de nauwkeurigheid als de redeneerkwaliteit onder realistische verstoringen te beoordelen. We evalueren ROVA en baseline-modellen op PVRBench, UrbanVideo en VisBench, waar open-source en propriëtaire modellen onder realistische perturbaties een daling tot wel 35% in nauwkeurigheid en 28% in redeneervermogen vertonen. ROVA vermindert de prestatievermindering effectief en verhoogt de relatieve nauwkeurigheid met minimaal 24% en het redeneervermogen met meer dan 9% in vergelijking met baseline-modellen (QWen2.5/3-VL, InternVL2.5, Embodied-R). Deze winst transferreert naar schone standaardbenchmarks, wat tot consistente verbeteringen leidt.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

Zijn videoredeneermodellen klaar voor de buitenwereld?

Are Video Reasoning Models Ready to Go Outside?

Samenvatting

Support