ChatPaper.aiChatPaper

Os Modelos de Raciocínio em Vídeo Estão Prontos para Sair do Laboratório?

Are Video Reasoning Models Ready to Go Outside?

March 11, 2026
Autores: Yangfan He, Changgyu Boo, Jaehong Yoon
cs.AI

Resumo

Na implantação no mundo real, os modelos de visão e linguagem frequentemente encontram perturbações como condições climáticas, oclusões e movimento da câmara. Sob tais condições, a sua compreensão e capacidade de raciocínio degradam-se substancialmente, revelando uma lacuna entre os ambientes de avaliação controlados (ou seja, não perturbados) e a robustez necessária para o mundo real. Para enfrentar esta limitação, propomos o ROVA, uma nova estrutura de treino que melhora a robustez ao modelar uma recompensa de consistência com consciência da robustez sob corrupções espaço-temporais. O ROVA introduz uma estratégia de treino *online* com consciência da dificuldade que prioriza amostras informativas com base na capacidade evolutiva do modelo. Especificamente, ele reestima continuamente a dificuldade da amostra através de uma avaliação autorreflexiva, permitindo um treino adaptativo com uma recompensa de consistência robustez-consciente. Também introduzimos o PVRBench, um novo benchmark que injeta perturbações do mundo real em conjuntos de dados de vídeo corporificado para avaliar tanto a precisão como a qualidade do raciocínio sob distúrbios realistas. Avaliamos o ROVA e os modelos de base no PVRBench, UrbanVideo e VisBench, onde modelos de código aberto e proprietários sofrem quedas de até 35% e 28% na precisão e no raciocínio sob perturbações realistas. O ROVA mitiga eficazmente a degradação do desempenho, aumentando a precisão relativa em pelo menos 24% e o raciocínio em mais de 9% em comparação com os modelos de base (QWen2.5/3-VL, InternVL2.5, Embodied-R). Estes ganhos transferem-se para benchmarks padrão não perturbados, produzindo melhorias consistentes.
English
In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap between clean, controlled (i.e., unperturbed) evaluation settings and real-world robustness. To address this limitation, we propose ROVA, a novel training framework that improves robustness by modeling a robustness-aware consistency reward under spatio-temporal corruptions. ROVA introduces a difficulty-aware online training strategy that prioritizes informative samples based on the model's evolving capability. Specifically, it continuously re-estimates sample difficulty via self-reflective evaluation, enabling adaptive training with a robustness-aware consistency reward. We also introduce PVRBench, a new benchmark that injects real-world perturbations into embodied video datasets to assess both accuracy and reasoning quality under realistic disturbances. We evaluate ROVA and baselines on PVRBench, UrbanVideo, and VisBench, where open-source and proprietary models suffer up to 35% and 28% drops in accuracy and reasoning under realistic perturbations. ROVA effectively mitigates performance degradation, boosting relative accuracy by at least 24% and reasoning by over 9% compared with baseline models (QWen2.5/3-VL, InternVL2.5, Embodied-R). These gains transfer to clean standard benchmarks, yielding consistent improvements.
PDF82March 29, 2026