Sind Video-Verstandesmodelle bereit für den Einsatz in der realen Welt?

Zusammenfassung

Im praktischen Einsatz sehen sich visionssprachliche Modelle häufig mit Störungen wie Wettereinflüssen, Verdeckungen und Kamerabewegungen konfrontiert. Unter solchen Bedingungen verschlechtern sich ihr Verständnis und ihre Schlussfolgerungsfähigkeit erheblich, was eine Diskrepanz zwischen sauberen, kontrollierten (d.h. ungestörten) Evaluierungsumgebungen und der Robustheit in realen Szenarien offenbart. Um diese Einschränkung zu adressieren, schlagen wir ROVA vor, ein neuartiges Trainingsframework, das die Robustheit durch Modellierung einer robustheitsbewussten Konsistenzbelohnung unter räumlich-zeitlichen Störungen verbessert. ROVA führt eine schwierigkeitsbewusste Online-Trainingsstrategie ein, die informative Proben basierend auf der sich entwickelnden Fähigkeit des Modells priorisiert. Konkret schätzt es kontinuierlich den Schwierigkeitsgrad von Proben durch selbstreflektierende Evaluation neu, was ein adaptives Training mit einer robustheitsbewussten Konsistenzbelohnung ermöglicht. Wir stellen außerdem PVRBench vor, einen neuen Benchmark, der reale Störungen in verkörperte Videodatensätze injiziert, um sowohl die Genauigkeit als auch die Schlussfolgerungsqualität unter realistischen Störungen zu bewerten. Wir evaluieren ROVA und Baseline-Modelle auf PVRBench, UrbanVideo und VisBench, wobei Open-Source- und proprietäre Modelle unter realistischen Störungen Genauigkeits- und Schlussfolgerungseinbußen von bis zu 35 % bzw. 28 % verzeichnen. ROVA mildert die Leistungsverschlechterung effektiv ab und steigert die relative Genauigkeit um mindestens 24 % und die Schlussfolgerungsfähigkeit um über 9 % im Vergleich zu Baseline-Modellen (QWen2.5/3-VL, InternVL2.5, Embodied-R). Diese Verbesserungen übertragen sich auf saubere Standard-Benchmarks und erzielen konsistente Steigerungen.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

Sind Video-Verstandesmodelle bereit für den Einsatz in der realen Welt?

Are Video Reasoning Models Ready to Go Outside?

Zusammenfassung

Support