REVISOR : Au-delà de la réflexion textuelle, vers un raisonnement introspectif multimodal dans la compréhension de vidéos longues
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding
November 17, 2025
papers.authors: Jiaze Li, Hao Yin, Wenhui Tan, Jingyang Chen, Boshen Xu, Yuxun Qu, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Jian Luan
cs.AI
papers.abstract
Les mécanismes d’auto-réflexion qui reposent sur des processus de reconsidération purement textuels obtiennent de bons résultats dans la plupart des tâches multimodales. Cependant, lorsqu'ils sont directement appliqués à des scénarios de compréhension vidéo longue durée, ils présentent des limitations évidentes. Les raisons fondamentales résident en deux points : (1) la compréhension vidéo longue durée implique une entrée visuelle plus riche et dynamique, ce qui signifie que reconsidérer uniquement l'information textuelle est insuffisant et nécessite un processus de reconsidération supplémentaire spécifiquement ciblé sur l'information visuelle ; (2) les mécanismes de réflexion purement textuels manquent de capacités d'interaction cross-modale, les empêchant d'intégrer pleinement l'information visuelle durant la réflexion. Motivés par ces constats, nous proposons REVISOR (REflective VIsual Segment Oriented Reasoning), un nouveau cadre pour la réflexion multimodale augmentée par outils. REVISOR permet aux MLLM de construire collaborativement des processus de réflexion introspective à travers les modalités textuelle et visuelle, améliorant significativement leur capacité de raisonnement pour la compréhension vidéo longue durée. Pour garantir que REVISOR puisse apprendre à réviser précisément les segments vidéo fortement pertinents pour la question durant l'apprentissage par renforcement, nous avons conçu le mécanisme de récompense découplée à double attribution (DADR). Intégré dans la stratégie d'entraînement GRPO, ce mécanisme impose un alignement causal entre le raisonnement du modèle et les preuves vidéo sélectionnées. Notamment, le cadre REVISOR améliore significativement la capacité de compréhension vidéo longue durée des MLLM sans nécessiter de fine-tuning supervisé supplémentaire ou de modèles externes, obtenant des résultats impressionnants sur quatre benchmarks incluant VideoMME, LongVideoBench, MLVU et LVBench.
English
Self-reflection mechanisms that rely on purely text-based rethinking processes perform well in most multimodal tasks. However, when directly applied to long-form video understanding scenarios, they exhibit clear limitations. The fundamental reasons for this lie in two points: (1)long-form video understanding involves richer and more dynamic visual input, meaning rethinking only the text information is insufficient and necessitates a further rethinking process specifically targeting visual information; (2) purely text-based reflection mechanisms lack cross-modal interaction capabilities, preventing them from fully integrating visual information during reflection. Motivated by these insights, we propose REVISOR (REflective VIsual Segment Oriented Reasoning), a novel framework for tool-augmented multimodal reflection. REVISOR enables MLLMs to collaboratively construct introspective reflection processes across textual and visual modalities, significantly enhancing their reasoning capability for long-form video understanding. To ensure that REVISOR can learn to accurately review video segments highly relevant to the question during reinforcement learning, we designed the Dual Attribution Decoupled Reward (DADR) mechanism. Integrated into the GRPO training strategy, this mechanism enforces causal alignment between the model's reasoning and the selected video evidence. Notably, the REVISOR framework significantly enhances long-form video understanding capability of MLLMs without requiring supplementary supervised fine-tuning or external models, achieving impressive results on four benchmarks including VideoMME, LongVideoBench, MLVU, and LVBench.