VideoMind: 장기 비디오 추론을 위한 LoRA 체인 에이전트
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
저자: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
초록
비디오는 고유한 시간적 차원을 가지고 있어, 답변이 시각적이고 해석 가능한 증거와 직접적으로 연결된 정확한 근거 기반 이해를 요구합니다. 대규모 언어 모델(Large Language Models) 내에서 추론 능력이 크게 발전했음에도 불구하고, 특히 비디오를 대상으로 한 다중 모달 추론(multi-modal reasoning)은 여전히 탐구되지 않은 영역입니다. 본 연구에서는 시간적 근거 기반 비디오 이해를 위해 설계된 새로운 비디오-언어 에이전트인 VideoMind를 소개합니다. VideoMind는 두 가지 주요 혁신을 포함합니다: (i) 비디오 시간적 추론에 필수적인 능력을 식별하고, 다양한 역할을 조정하는 플래너(planner), 시간적 위치를 파악하는 그라운더(grounder), 시간적 간격의 정확성을 평가하는 검증자(verifier), 질문-응답을 담당하는 응답자(answerer)를 포함한 역할 기반 에이전트 워크플로우를 개발합니다. (ii) 이러한 다양한 역할을 효율적으로 통합하기 위해, 경량 LoRA 어댑터를 통해 원활한 역할 전환을 가능하게 하는 새로운 Chain-of-LoRA 전략을 제안합니다. 이를 통해 다중 모델의 오버헤드를 피하면서 효율성과 유연성을 균형 있게 유지합니다. 14개의 공개 벤치마크에서 수행한 광범위한 실험 결과, 우리의 에이전트는 근거 기반 비디오 질문-응답 3개, 비디오 시간적 위치 파악 6개, 일반 비디오 질문-응답 5개를 포함한 다양한 비디오 이해 작업에서 최첨단 성능을 달성함으로써, 비디오 에이전트 및 장편 시간적 추론 분야에서의 효과성을 입증했습니다.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary