VideoMind: Агент с цепочкой LoRA для анализа длинных видео

Аннотация

Видео, с их уникальным временным измерением, требуют точного обоснованного понимания, где ответы напрямую связаны с визуальными, интерпретируемыми доказательствами. Несмотря на значительные прорывы в способностях к рассуждению в крупных языковых моделях, мультимодальное рассуждение — особенно для видео — остается малоизученным. В данной работе мы представляем VideoMind, новый видео-языковой агент, разработанный для временно-обоснованного понимания видео. VideoMind включает два ключевых нововведения: (i) Мы определяем основные способности для временного рассуждения в видео и разрабатываем ролевой агентский рабочий процесс, включая планировщика для координации различных ролей, локализатора для временного позиционирования, верификатора для оценки точности временных интервалов и отвечающего для вопросно-ответных задач. (ii) Для эффективной интеграции этих разнообразных ролей мы предлагаем новую стратегию Chain-of-LoRA, обеспечивающую плавное переключение ролей с помощью легковесных адаптеров LoRA, избегая при этом накладных расходов на использование нескольких моделей, что позволяет сбалансировать эффективность и гибкость. Масштабные эксперименты на 14 публичных бенчмарках демонстрируют, что наш агент достигает наилучших результатов в различных задачах понимания видео, включая 3 задачи на обоснованное видео-вопросно-ответное взаимодействие, 6 задач на временное позиционирование в видео и 5 задач на общее видео-вопросно-ответное взаимодействие, подчеркивая его эффективность в продвижении видео-агентов и длительного временного рассуждения.

English

Videos, with their unique temporal dimension, demand precise grounded understanding, where answers are directly linked to visual, interpretable evidence. Despite significant breakthroughs in reasoning capabilities within Large Language Models, multi-modal reasoning - especially for videos - remains unexplored. In this work, we introduce VideoMind, a novel video-language agent designed for temporal-grounded video understanding. VideoMind incorporates two key innovations: (i) We identify essential capabilities for video temporal reasoning and develop a role-based agentic workflow, including a planner for coordinating different roles, a grounder for temporal localization, a verifier to assess temporal interval accuracy, and an answerer for question-answering. (ii) To efficiently integrate these diverse roles, we propose a novel Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA adaptors while avoiding the overhead of multiple models, thus balancing efficiency and flexibility. Extensive experiments on 14 public benchmarks demonstrate that our agent achieves state-of-the-art performance on diverse video understanding tasks, including 3 on grounded video question-answering, 6 on video temporal grounding, and 5 on general video question-answering, underscoring its effectiveness in advancing video agent and long-form temporal reasoning.

VideoMind: Агент с цепочкой LoRA для анализа длинных видео

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Аннотация

Support