VideoMind: Un Agente a Catena di LoRA per il Ragionamento su Video Lunghi

Abstract

I video, con la loro dimensione temporale unica, richiedono una comprensione precisa e fondata, in cui le risposte sono direttamente collegate a prove visive e interpretabili. Nonostante i significativi progressi nelle capacità di ragionamento dei Modelli Linguistici di Grande Dimensione, il ragionamento multimodale - specialmente per i video - rimane inesplorato. In questo lavoro, introduciamo VideoMind, un innovativo agente video-linguistico progettato per la comprensione temporale fondata dei video. VideoMind incorpora due innovazioni chiave: (i) Identifichiamo le capacità essenziali per il ragionamento temporale nei video e sviluppiamo un flusso di lavoro agentico basato su ruoli, includendo un pianificatore per coordinare i diversi ruoli, un fondatore per la localizzazione temporale, un verificatore per valutare l'accuratezza degli intervalli temporali e un risponditore per il question-answering. (ii) Per integrare in modo efficiente questi diversi ruoli, proponiamo una nuova strategia Chain-of-LoRA, che consente un passaggio fluido tra i ruoli tramite adattatori LoRA leggeri, evitando il sovraccarico di più modelli e bilanciando così efficienza e flessibilità. Esperimenti estesi su 14 benchmark pubblici dimostrano che il nostro agente raggiunge prestazioni all'avanguardia in diverse attività di comprensione video, tra cui 3 su question-answering fondato sui video, 6 su localizzazione temporale nei video e 5 su question-answering video generale, evidenziando la sua efficacia nel far progredire gli agenti video e il ragionamento temporale a lungo termine.

English

Videos, with their unique temporal dimension, demand precise grounded understanding, where answers are directly linked to visual, interpretable evidence. Despite significant breakthroughs in reasoning capabilities within Large Language Models, multi-modal reasoning - especially for videos - remains unexplored. In this work, we introduce VideoMind, a novel video-language agent designed for temporal-grounded video understanding. VideoMind incorporates two key innovations: (i) We identify essential capabilities for video temporal reasoning and develop a role-based agentic workflow, including a planner for coordinating different roles, a grounder for temporal localization, a verifier to assess temporal interval accuracy, and an answerer for question-answering. (ii) To efficiently integrate these diverse roles, we propose a novel Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA adaptors while avoiding the overhead of multiple models, thus balancing efficiency and flexibility. Extensive experiments on 14 public benchmarks demonstrate that our agent achieves state-of-the-art performance on diverse video understanding tasks, including 3 on grounded video question-answering, 6 on video temporal grounding, and 5 on general video question-answering, underscoring its effectiveness in advancing video agent and long-form temporal reasoning.

VideoMind: Un Agente a Catena di LoRA per il Ragionamento su Video Lunghi

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Abstract

Support