I modelli di ragionamento video sono pronti per uscire all'aperto?

Abstract

Nella diffusione reale, i modelli visione-linguaggio incontrano spesso disturbi come condizioni meteorologiche, occlusioni e movimento della telecamera. In tali condizioni, la loro capacità di comprensione e ragionamento si degrada sostanzialmente, rivelando un divario tra ambienti di valutazione puliti e controllati (cioè non perturbati) e la robustezza nel mondo reale. Per affrontare questa limitazione, proponiamo ROVA, un nuovo framework di addestramento che migliora la robustezza modellando una ricompensa di consistenza consapevole della robustezza sotto corruzioni spazio-temporali. ROVA introduce una strategia di addestramento online consapevole della difficoltà che priorizza i campioni informativi basandosi sulla capacità evolutiva del modello. Nello specifico, rivaluta continuamente la difficoltà del campione tramite valutazione auto-riflessiva, permettendo un addestramento adattivo con una ricompensa di consistenza robustness-aware. Introduciamo inoltre PVRBench, un nuovo benchmark che inietta perturbazioni del mondo reale in dataset video embodied per valutare sia l'accuratezza che la qualità del ragionamento sotto disturbi realistici. Valutiamo ROVA e i modelli di riferimento su PVRBench, UrbanVideo e VisBench, dove modelli open-source e proprietari subiscono cali fino al 35% nell'accuratezza e al 28% nel ragionamento sotto perturbazioni realistiche. ROVA mitiga efficacemente il degrado delle prestazioni, aumentando l'accuratezza relativa di almeno il 24% e il ragionamento di oltre il 9% rispetto ai modelli baseline (QWen2.5/3-VL, InternVL2.5, Embodied-R). Questi vantaggi si trasferiscono ai benchmark standard puliti, producendo miglioramenti consistenti.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

I modelli di ragionamento video sono pronti per uscire all'aperto?

Are Video Reasoning Models Ready to Go Outside?

Abstract

Support