ChatPaper.aiChatPaper

VideoMind : Un agent en chaîne de LoRA pour le raisonnement sur des vidéos longues

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

March 17, 2025
Auteurs: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI

Résumé

Les vidéos, avec leur dimension temporelle unique, exigent une compréhension précise et ancrée, où les réponses sont directement liées à des preuves visuelles et interprétables. Malgré des avancées significatives dans les capacités de raisonnement des grands modèles de langage, le raisonnement multimodal - en particulier pour les vidéos - reste inexploré. Dans ce travail, nous présentons VideoMind, un nouvel agent vidéo-langage conçu pour la compréhension temporelle ancrée des vidéos. VideoMind intègre deux innovations clés : (i) Nous identifions les capacités essentielles pour le raisonnement temporel vidéo et développons un flux de travail agentique basé sur des rôles, incluant un planificateur pour coordonner les différents rôles, un ancreur pour la localisation temporelle, un vérificateur pour évaluer la précision des intervalles temporels, et un répondeur pour les questions-réponses. (ii) Pour intégrer efficacement ces rôles divers, nous proposons une nouvelle stratégie de Chaîne-de-LoRA, permettant un changement de rôle fluide via des adaptateurs LoRA légers tout en évitant la surcharge de multiples modèles, équilibrant ainsi efficacité et flexibilité. Des expériences approfondies sur 14 benchmarks publics démontrent que notre agent atteint des performances de pointe sur diverses tâches de compréhension vidéo, incluant 3 sur les questions-réponses vidéo ancrées, 6 sur l'ancrage temporel vidéo, et 5 sur les questions-réponses vidéo générales, soulignant son efficacité dans l'avancement des agents vidéo et du raisonnement temporel de longue durée.
English
Videos, with their unique temporal dimension, demand precise grounded understanding, where answers are directly linked to visual, interpretable evidence. Despite significant breakthroughs in reasoning capabilities within Large Language Models, multi-modal reasoning - especially for videos - remains unexplored. In this work, we introduce VideoMind, a novel video-language agent designed for temporal-grounded video understanding. VideoMind incorporates two key innovations: (i) We identify essential capabilities for video temporal reasoning and develop a role-based agentic workflow, including a planner for coordinating different roles, a grounder for temporal localization, a verifier to assess temporal interval accuracy, and an answerer for question-answering. (ii) To efficiently integrate these diverse roles, we propose a novel Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA adaptors while avoiding the overhead of multiple models, thus balancing efficiency and flexibility. Extensive experiments on 14 public benchmarks demonstrate that our agent achieves state-of-the-art performance on diverse video understanding tasks, including 3 on grounded video question-answering, 6 on video temporal grounding, and 5 on general video question-answering, underscoring its effectiveness in advancing video agent and long-form temporal reasoning.

Summary

AI-Generated Summary

PDF162March 18, 2025