ChatPaper.aiChatPaper

MOSS-ChatV : Apprentissage par renforcement avec récompense de raisonnement processuel pour le raisonnement temporel vidéo

MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

September 25, 2025
papers.authors: Sicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu
cs.AI

papers.abstract

Le raisonnement vidéo est devenu une capacité essentielle pour les modèles de langage multimodaux de grande taille (MLLMs), exigeant que ces modèles dépassent la perception statique pour atteindre une compréhension cohérente des dynamiques temporelles dans des scènes complexes. Cependant, les MLLMs existants présentent souvent une incohérence de processus, où le raisonnement intermédiaire s'écarte des dynamiques vidéo même lorsque la réponse finale est correcte, compromettant ainsi l'interprétabilité et la robustesse. Pour résoudre ce problème, nous introduisons MOSS-ChatV, un cadre d'apprentissage par renforcement avec une récompense de processus basée sur le Dynamic Time Warping (DTW). Cette récompense basée sur des règles aligne les traces de raisonnement avec des références temporellement ancrées, permettant une supervision efficace du processus sans modèles de récompense auxiliaires. Nous identifions également la prédiction d'état dynamique comme une mesure clé du raisonnement vidéo et construisons MOSS-Video, un benchmark avec des traces de raisonnement annotées, où la partie d'entraînement est utilisée pour affiner MOSS-ChatV et la partie réservée est utilisée pour l'évaluation. MOSS-ChatV atteint 87,2\% sur MOSS-Video (test) et améliore les performances sur des benchmarks vidéo généraux tels que MVBench et MMVU. Le cadre produit systématiquement des gains à travers différentes architectures, y compris Qwen2.5-VL et Phi-2, confirmant son applicabilité large. Les évaluations avec GPT-4o-comme-juge montrent en outre que MOSS-ChatV génère des traces de raisonnement plus cohérentes et stables.
English
Video reasoning has emerged as a critical capability for multimodal large language models (MLLMs), requiring models to move beyond static perception toward coherent understanding of temporal dynamics in complex scenes. Yet existing MLLMs often exhibit process inconsistency, where intermediate reasoning drifts from video dynamics even when the final answer is correct, undermining interpretability and robustness. To address this issue, we introduce MOSS-ChatV, a reinforcement learning framework with a Dynamic Time Warping (DTW)-based process reward. This rule-based reward aligns reasoning traces with temporally grounded references, enabling efficient process supervision without auxiliary reward models. We further identify dynamic state prediction as a key measure of video reasoning and construct MOSS-Video, a benchmark with annotated reasoning traces, where the training split is used to fine-tune MOSS-ChatV and the held-out split is reserved for evaluation. MOSS-ChatV achieves 87.2\% on MOSS-Video (test) and improves performance on general video benchmarks such as MVBench and MMVU. The framework consistently yields gains across different architectures, including Qwen2.5-VL and Phi-2, confirming its broad applicability. Evaluations with GPT-4o-as-judge further show that MOSS-ChatV produces more consistent and stable reasoning traces.
PDF42September 26, 2025