VideoMind: Um Agente de Cadeia-de-LoRA para Raciocínio em Vídeos Longos

Resumo

Vídeos, com sua dimensão temporal única, exigem um entendimento fundamentado preciso, onde as respostas estão diretamente vinculadas a evidências visuais e interpretáveis. Apesar dos avanços significativos nas capacidades de raciocínio dos Modelos de Linguagem de Grande Escala, o raciocínio multimodal — especialmente para vídeos — permanece inexplorado. Neste trabalho, apresentamos o VideoMind, um novo agente de linguagem de vídeo projetado para o entendimento temporal fundamentado de vídeos. O VideoMind incorpora duas inovações principais: (i) Identificamos capacidades essenciais para o raciocínio temporal em vídeos e desenvolvemos um fluxo de trabalho agentivo baseado em papéis, incluindo um planejador para coordenar diferentes funções, um fundamentador para localização temporal, um verificador para avaliar a precisão dos intervalos temporais e um respondedor para tarefas de questionamento. (ii) Para integrar essas diversas funções de forma eficiente, propomos uma nova estratégia de Chain-of-LoRA, permitindo a troca contínua de papéis por meio de adaptadores LoRA leves, evitando a sobrecarga de múltiplos modelos e equilibrando eficiência e flexibilidade. Experimentos extensivos em 14 benchmarks públicos demonstram que nosso agente alcança desempenho de ponta em diversas tarefas de entendimento de vídeos, incluindo 3 em questionamento fundamentado de vídeos, 6 em fundamentação temporal de vídeos e 5 em questionamento geral de vídeos, destacando sua eficácia no avanço de agentes de vídeo e no raciocínio temporal de longa duração.

English

Videos, with their unique temporal dimension, demand precise grounded understanding, where answers are directly linked to visual, interpretable evidence. Despite significant breakthroughs in reasoning capabilities within Large Language Models, multi-modal reasoning - especially for videos - remains unexplored. In this work, we introduce VideoMind, a novel video-language agent designed for temporal-grounded video understanding. VideoMind incorporates two key innovations: (i) We identify essential capabilities for video temporal reasoning and develop a role-based agentic workflow, including a planner for coordinating different roles, a grounder for temporal localization, a verifier to assess temporal interval accuracy, and an answerer for question-answering. (ii) To efficiently integrate these diverse roles, we propose a novel Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA adaptors while avoiding the overhead of multiple models, thus balancing efficiency and flexibility. Extensive experiments on 14 public benchmarks demonstrate that our agent achieves state-of-the-art performance on diverse video understanding tasks, including 3 on grounded video question-answering, 6 on video temporal grounding, and 5 on general video question-answering, underscoring its effectiveness in advancing video agent and long-form temporal reasoning.

VideoMind: Um Agente de Cadeia-de-LoRA para Raciocínio em Vídeos Longos

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Resumo

Support