VideoMind: Een Chain-of-LoRA Agent voor Langdurige Videoredenering
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Auteurs: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Samenvatting
Video's, met hun unieke temporele dimensie, vereisen een nauwkeurig gegrond begrip, waarbij antwoorden direct gekoppeld zijn aan visueel, interpreteerbaar bewijs. Ondanks significante doorbraken in de redeneervaardigheden van Large Language Models, blijft multi-modale redenering - vooral voor video's - onontgonnen gebied. In dit werk introduceren we VideoMind, een innovatieve video-taalagent ontworpen voor temporeel-gegrond videobegrip. VideoMind bevat twee belangrijke innovaties: (i) We identificeren essentiële vaardigheden voor temporele video-redenering en ontwikkelen een op rollen gebaseerd agentisch werkproces, inclusief een planner voor het coördineren van verschillende rollen, een grounder voor temporele lokalisatie, een verifier om de nauwkeurigheid van temporele intervallen te beoordelen, en een answerer voor vraag-antwoordtaken. (ii) Om deze diverse rollen efficiënt te integreren, stellen we een nieuwe Chain-of-LoRA-strategie voor, die naadloze rolwisseling mogelijk maakt via lichtgewicht LoRA-adapters, terwijl de overhead van meerdere modellen wordt vermeden, waardoor efficiëntie en flexibiliteit in balans blijven. Uitgebreide experimenten op 14 publieke benchmarks tonen aan dat onze agent state-of-the-art prestaties behaalt op diverse videobegriptaken, waaronder 3 op gegrond videovraag-antwoord, 6 op temporele videolokalisatie, en 5 op algemeen videovraag-antwoord, wat de effectiviteit ervan onderstreept in het bevorderen van video-agenten en langdurige temporele redenering.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary