VideoMind: Un Agente de Cadena-de-LoRA para el Razonamiento en Videos Largos
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Autores: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Resumen
Los videos, con su dimensión temporal única, exigen una comprensión precisa y fundamentada, donde las respuestas estén directamente vinculadas a evidencia visual e interpretable. A pesar de los avances significativos en las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala, el razonamiento multimodal —especialmente para videos— sigue siendo un área inexplorada. En este trabajo, presentamos VideoMind, un agente novedoso de lenguaje y video diseñado para la comprensión temporal fundamentada de videos. VideoMind incorpora dos innovaciones clave: (i) Identificamos capacidades esenciales para el razonamiento temporal en videos y desarrollamos un flujo de trabajo basado en roles, incluyendo un planificador para coordinar diferentes roles, un localizador para la ubicación temporal, un verificador para evaluar la precisión de los intervalos temporales y un respondedor para la resolución de preguntas. (ii) Para integrar eficientemente estos diversos roles, proponemos una novedosa estrategia de Cadena-de-LoRA, que permite un cambio de roles fluido mediante adaptadores LoRA ligeros, evitando la sobrecarga de múltiples modelos y equilibrando así eficiencia y flexibilidad. Experimentos exhaustivos en 14 benchmarks públicos demuestran que nuestro agente alcanza un rendimiento de vanguardia en diversas tareas de comprensión de videos, incluyendo 3 en preguntas y respuestas fundamentadas en videos, 6 en localización temporal de videos y 5 en preguntas y respuestas generales sobre videos, destacando su efectividad en el avance de los agentes de video y el razonamiento temporal de larga duración.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary