REVISOR: 텍스트적 성찰을 넘어 장편 비디오 이해에서 다중 양식 내성적 추론으로
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding
November 17, 2025
저자: Jiaze Li, Hao Yin, Wenhui Tan, Jingyang Chen, Boshen Xu, Yuxun Qu, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Jian Luan
cs.AI
초록
순수 텍스트 기반 재고(rethinking) 과정에 의존하는 자기 성찰(self-reflection) 메커니즘은 대부분의 멀티모달 작업에서 우수한 성능을 보입니다. 그러나 장편 영상 이해(long-form video understanding) 시나리오에 직접 적용할 경우, 이러한 메커니즘은 명확한 한계를 드러냅니다. 그 근본적인 이유는 두 가지에 기인합니다: (1) 장편 영상 이해는 더 풍부하고 동적인 시각적 입력을 수반하므로, 텍스트 정보만 재고하는 것으로는 부족하며 시각 정보를 특별히 대상으로 하는 추가적인 재고 과정이 필수적입니다. (2) 순수 텍스트 기반 성찰 메커니즘은 크로스모달 상호작용 능력이 부족하여 성찰 과정에서 시각 정보를 완전히 통합하는 것을 방해합니다. 이러한 통찰을 바탕으로, 우리는 도구 증강(tool-augmented) 멀티모달 성찰을 위한 새로운 프레임워크인 REVISOR(REflective VIsual Segment Oriented Reasoning)를 제안합니다. REVISOR는 MLLM(Multimodal Large Language Model)이 텍스트와 시각 양식(modality)에 걸쳐 협력적으로 내성적 성찰(introspective reflection) 과정을 구축할 수 있게 하여, 장편 영상 이해에 대한 추론 능력을 크게 향상시킵니다. REVISOR가 강화 학습 과정에서 질문과 높은 관련성을 지닌 영상 세그먼트를 정확히 검토하는 방법을 학습할 수 있도록 하기 위해, 우리는 이중 귀속 분리 보상(Dual Attribution Decoupled Reward, DADR) 메커니즘을 설계했습니다. GRPO(Group Relative Policy Optimization) 훈련 전략에 통합된 이 메커니즘은 모델의 추론과 선택된 영상 증거 사이의 인과적 정렬(causal alignment)을 강제합니다. 주목할 점은, REVISOR 프레임워크가 추가적인 지도 미세 조정(supervised fine-tuning)이나 외부 모델을 필요로 하지 않으면서도 MLLM의 장편 영상 이해 능력을 크게 향상시켜 VideoMME, LongVideoBench, MLVU, LVBench 등 4개의 벤치마크에서 인상적인 결과를 달성했다는 것입니다.
English
Self-reflection mechanisms that rely on purely text-based rethinking processes perform well in most multimodal tasks. However, when directly applied to long-form video understanding scenarios, they exhibit clear limitations. The fundamental reasons for this lie in two points: (1)long-form video understanding involves richer and more dynamic visual input, meaning rethinking only the text information is insufficient and necessitates a further rethinking process specifically targeting visual information; (2) purely text-based reflection mechanisms lack cross-modal interaction capabilities, preventing them from fully integrating visual information during reflection. Motivated by these insights, we propose REVISOR (REflective VIsual Segment Oriented Reasoning), a novel framework for tool-augmented multimodal reflection. REVISOR enables MLLMs to collaboratively construct introspective reflection processes across textual and visual modalities, significantly enhancing their reasoning capability for long-form video understanding. To ensure that REVISOR can learn to accurately review video segments highly relevant to the question during reinforcement learning, we designed the Dual Attribution Decoupled Reward (DADR) mechanism. Integrated into the GRPO training strategy, this mechanism enforces causal alignment between the model's reasoning and the selected video evidence. Notably, the REVISOR framework significantly enhances long-form video understanding capability of MLLMs without requiring supplementary supervised fine-tuning or external models, achieving impressive results on four benchmarks including VideoMME, LongVideoBench, MLVU, and LVBench.