ChatPaper.aiChatPaper

REVISOR: テキスト的省察を超えて、長編動画理解におけるマルチモーダル内省的推論へ

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

November 17, 2025
著者: Jiaze Li, Hao Yin, Wenhui Tan, Jingyang Chen, Boshen Xu, Yuxun Qu, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Jian Luan
cs.AI

要旨

純粋にテキストベースの再考プロセスに依存する自己内省メカニズムは、多くのマルチモーダルタスクにおいて良好な性能を発揮する。しかし、長尺動画理解シナリオに直接適用した場合、明らかな限界が現れる。その根本的な理由は以下の二点にある:(1)長尺動画理解はより豊富で動的な視覚入力を含むため、テキスト情報のみの再考では不十分であり、視覚情報に特化した追加的な再考プロセスが必須となる;(2)純粋にテキストベースの反省メカニズムはモーダル間相互作用能力を欠いており、反省過程で視覚情報を完全に統合することができない。これらの知見に基づき、我々はREVISOR(REflective VIsual Segment Oriented Reasoning)という、ツール拡張型マルチモーダル内省のための新規フレームワークを提案する。REVISORはMLLMがテキストと視覚のモダリティを横断した内省的な反省プロセスを協調的に構築することを可能にし、長尺動画理解における推論能力を大幅に強化する。REVISORが強化学習中に質問と高度に関連する動画セグメントを正確にレビューすることを学習できるようにするため、我々は二重帰属分離報酬(DADR)メカニズムを設計した。このメカニズムはGRPO訓練戦略に統合され、モデルの推論と選択された動画証拠との間の因果的整合性を強化する。特筆すべきは、REVISORフレームワークが追加の教師ありファインチューニングや外部モデルを必要とせずに、MLLMの長尺動画理解能力を大幅に向上させ、VideoMME、LongVideoBench、MLVU、LVBenchの4つのベンチマークで印象的な結果を達成した点である。
English
Self-reflection mechanisms that rely on purely text-based rethinking processes perform well in most multimodal tasks. However, when directly applied to long-form video understanding scenarios, they exhibit clear limitations. The fundamental reasons for this lie in two points: (1)long-form video understanding involves richer and more dynamic visual input, meaning rethinking only the text information is insufficient and necessitates a further rethinking process specifically targeting visual information; (2) purely text-based reflection mechanisms lack cross-modal interaction capabilities, preventing them from fully integrating visual information during reflection. Motivated by these insights, we propose REVISOR (REflective VIsual Segment Oriented Reasoning), a novel framework for tool-augmented multimodal reflection. REVISOR enables MLLMs to collaboratively construct introspective reflection processes across textual and visual modalities, significantly enhancing their reasoning capability for long-form video understanding. To ensure that REVISOR can learn to accurately review video segments highly relevant to the question during reinforcement learning, we designed the Dual Attribution Decoupled Reward (DADR) mechanism. Integrated into the GRPO training strategy, this mechanism enforces causal alignment between the model's reasoning and the selected video evidence. Notably, the REVISOR framework significantly enhances long-form video understanding capability of MLLMs without requiring supplementary supervised fine-tuning or external models, achieving impressive results on four benchmarks including VideoMME, LongVideoBench, MLVU, and LVBench.
PDF242December 1, 2025