VideoMind: Um Agente de Cadeia-de-LoRA para Raciocínio em Vídeos Longos
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Autores: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Resumo
Vídeos, com sua dimensão temporal única, exigem um entendimento fundamentado preciso, onde as respostas estão diretamente vinculadas a evidências visuais e interpretáveis. Apesar dos avanços significativos nas capacidades de raciocínio dos Modelos de Linguagem de Grande Escala, o raciocínio multimodal — especialmente para vídeos — permanece inexplorado. Neste trabalho, apresentamos o VideoMind, um novo agente de linguagem de vídeo projetado para o entendimento temporal fundamentado de vídeos. O VideoMind incorpora duas inovações principais: (i) Identificamos capacidades essenciais para o raciocínio temporal em vídeos e desenvolvemos um fluxo de trabalho agentivo baseado em papéis, incluindo um planejador para coordenar diferentes funções, um fundamentador para localização temporal, um verificador para avaliar a precisão dos intervalos temporais e um respondedor para tarefas de questionamento. (ii) Para integrar essas diversas funções de forma eficiente, propomos uma nova estratégia de Chain-of-LoRA, permitindo a troca contínua de papéis por meio de adaptadores LoRA leves, evitando a sobrecarga de múltiplos modelos e equilibrando eficiência e flexibilidade. Experimentos extensivos em 14 benchmarks públicos demonstram que nosso agente alcança desempenho de ponta em diversas tarefas de entendimento de vídeos, incluindo 3 em questionamento fundamentado de vídeos, 6 em fundamentação temporal de vídeos e 5 em questionamento geral de vídeos, destacando sua eficácia no avanço de agentes de vídeo e no raciocínio temporal de longa duração.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary