VideoMind : Un agent en chaîne de LoRA pour le raisonnement sur des vidéos longues
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Auteurs: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Résumé
Les vidéos, avec leur dimension temporelle unique, exigent une compréhension précise et ancrée, où les réponses sont directement liées à des preuves visuelles et interprétables. Malgré des avancées significatives dans les capacités de raisonnement des grands modèles de langage, le raisonnement multimodal - en particulier pour les vidéos - reste inexploré. Dans ce travail, nous présentons VideoMind, un nouvel agent vidéo-langage conçu pour la compréhension temporelle ancrée des vidéos. VideoMind intègre deux innovations clés : (i) Nous identifions les capacités essentielles pour le raisonnement temporel vidéo et développons un flux de travail agentique basé sur des rôles, incluant un planificateur pour coordonner les différents rôles, un ancreur pour la localisation temporelle, un vérificateur pour évaluer la précision des intervalles temporels, et un répondeur pour les questions-réponses. (ii) Pour intégrer efficacement ces rôles divers, nous proposons une nouvelle stratégie de Chaîne-de-LoRA, permettant un changement de rôle fluide via des adaptateurs LoRA légers tout en évitant la surcharge de multiples modèles, équilibrant ainsi efficacité et flexibilité. Des expériences approfondies sur 14 benchmarks publics démontrent que notre agent atteint des performances de pointe sur diverses tâches de compréhension vidéo, incluant 3 sur les questions-réponses vidéo ancrées, 6 sur l'ancrage temporel vidéo, et 5 sur les questions-réponses vidéo générales, soulignant son efficacité dans l'avancement des agents vidéo et du raisonnement temporel de longue durée.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary