VideoMind: Un Agente a Catena di LoRA per il Ragionamento su Video Lunghi
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Autori: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Abstract
I video, con la loro dimensione temporale unica, richiedono una comprensione precisa e fondata, in cui le risposte sono direttamente collegate a prove visive e interpretabili. Nonostante i significativi progressi nelle capacità di ragionamento dei Modelli Linguistici di Grande Dimensione, il ragionamento multimodale - specialmente per i video - rimane inesplorato. In questo lavoro, introduciamo VideoMind, un innovativo agente video-linguistico progettato per la comprensione temporale fondata dei video. VideoMind incorpora due innovazioni chiave: (i) Identifichiamo le capacità essenziali per il ragionamento temporale nei video e sviluppiamo un flusso di lavoro agentico basato su ruoli, includendo un pianificatore per coordinare i diversi ruoli, un fondatore per la localizzazione temporale, un verificatore per valutare l'accuratezza degli intervalli temporali e un risponditore per il question-answering. (ii) Per integrare in modo efficiente questi diversi ruoli, proponiamo una nuova strategia Chain-of-LoRA, che consente un passaggio fluido tra i ruoli tramite adattatori LoRA leggeri, evitando il sovraccarico di più modelli e bilanciando così efficienza e flessibilità. Esperimenti estesi su 14 benchmark pubblici dimostrano che il nostro agente raggiunge prestazioni all'avanguardia in diverse attività di comprensione video, tra cui 3 su question-answering fondato sui video, 6 su localizzazione temporale nei video e 5 su question-answering video generale, evidenziando la sua efficacia nel far progredire gli agenti video e il ragionamento temporale a lungo termine.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.