Os Modelos de Raciocínio em Vídeo Estão Prontos para Sair do Laboratório?

Resumo

Na implantação no mundo real, os modelos de visão e linguagem frequentemente encontram perturbações como condições climáticas, oclusões e movimento da câmara. Sob tais condições, a sua compreensão e capacidade de raciocínio degradam-se substancialmente, revelando uma lacuna entre os ambientes de avaliação controlados (ou seja, não perturbados) e a robustez necessária para o mundo real. Para enfrentar esta limitação, propomos o ROVA, uma nova estrutura de treino que melhora a robustez ao modelar uma recompensa de consistência com consciência da robustez sob corrupções espaço-temporais. O ROVA introduz uma estratégia de treino *online* com consciência da dificuldade que prioriza amostras informativas com base na capacidade evolutiva do modelo. Especificamente, ele reestima continuamente a dificuldade da amostra através de uma avaliação autorreflexiva, permitindo um treino adaptativo com uma recompensa de consistência robustez-consciente. Também introduzimos o PVRBench, um novo benchmark que injeta perturbações do mundo real em conjuntos de dados de vídeo corporificado para avaliar tanto a precisão como a qualidade do raciocínio sob distúrbios realistas. Avaliamos o ROVA e os modelos de base no PVRBench, UrbanVideo e VisBench, onde modelos de código aberto e proprietários sofrem quedas de até 35% e 28% na precisão e no raciocínio sob perturbações realistas. O ROVA mitiga eficazmente a degradação do desempenho, aumentando a precisão relativa em pelo menos 24% e o raciocínio em mais de 9% em comparação com os modelos de base (QWen2.5/3-VL, InternVL2.5, Embodied-R). Estes ganhos transferem-se para benchmarks padrão não perturbados, produzindo melhorias consistentes.

English

In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.

Os Modelos de Raciocínio em Vídeo Estão Prontos para Sair do Laboratório?

Are Video Reasoning Models Ready to Go Outside?

Resumo

Support