VideoMind: Агент с цепочкой LoRA для анализа длинных видео
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Авторы: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Аннотация
Видео, с их уникальным временным измерением, требуют точного обоснованного понимания, где ответы напрямую связаны с визуальными, интерпретируемыми доказательствами. Несмотря на значительные прорывы в способностях к рассуждению в крупных языковых моделях, мультимодальное рассуждение — особенно для видео — остается малоизученным. В данной работе мы представляем VideoMind, новый видео-языковой агент, разработанный для временно-обоснованного понимания видео. VideoMind включает два ключевых нововведения: (i) Мы определяем основные способности для временного рассуждения в видео и разрабатываем ролевой агентский рабочий процесс, включая планировщика для координации различных ролей, локализатора для временного позиционирования, верификатора для оценки точности временных интервалов и отвечающего для вопросно-ответных задач. (ii) Для эффективной интеграции этих разнообразных ролей мы предлагаем новую стратегию Chain-of-LoRA, обеспечивающую плавное переключение ролей с помощью легковесных адаптеров LoRA, избегая при этом накладных расходов на использование нескольких моделей, что позволяет сбалансировать эффективность и гибкость. Масштабные эксперименты на 14 публичных бенчмарках демонстрируют, что наш агент достигает наилучших результатов в различных задачах понимания видео, включая 3 задачи на обоснованное видео-вопросно-ответное взаимодействие, 6 задач на временное позиционирование в видео и 5 задач на общее видео-вопросно-ответное взаимодействие, подчеркивая его эффективность в продвижении видео-агентов и длительного временного рассуждения.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary