ChatPaper.aiChatPaper

VideoAgent: Понимание видео большой языковой моделью в качестве агента

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

March 15, 2024
Авторы: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy
cs.AI

Аннотация

Понимание видео большой продолжительности представляет существенное вызов в рамках компьютерного зрения, требующий модели, способной рассуждать над длинными мультимодальными последовательностями. Вдохновленные когнитивным процессом человека при понимании видео большой продолжительности, мы акцентируем внимание на интерактивном рассуждении и планировании, а не только на способности обрабатывать длинные визуальные входы. Мы представляем новую систему на основе агентов, VideoAgent, которая использует большую языковую модель в качестве центрального агента для итеративной идентификации и компиляции ключевой информации для ответа на вопрос, причем модели на основе видения и языка служат инструментами для перевода и извлечения визуальной информации. Оцененный на сложных наборах данных EgoSchema и NExT-QA, VideoAgent достигает нулевой точности 54,1% и 71,3% соответственно при нулевом обучении, используя в среднем всего 8,4 и 8,2 кадра. Эти результаты демонстрируют превосходную эффективность и эффективность нашего метода по сравнению с современными методами, подчеркивая потенциал агентных подходов в продвижении понимания видео большой продолжительности.
English
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.

Summary

AI-Generated Summary

PDF362December 15, 2024