Коала: долгосрочная видео-LLM, управляемая ключевым кадром
Koala: Key frame-conditioned long video-LLM
April 5, 2024
Авторы: Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko
cs.AI
Аннотация
Ответы на длинные видеовопросы - это сложная задача, которая включает в себя распознавание краткосрочных действий и рассуждения о их тонких взаимосвязях. Современные видео Large Language Models (vLLM) представляют собой многообещающее решение благодаря их продемонстрированным возможностям на новых задачах. Однако, несмотря на то, что vLLM обучены на миллионах коротких видеороликов длительностью всего несколько секунд, они не способны понимать видео длительностью в минуты и точно отвечать на вопросы о них. Для преодоления этого ограничения мы предлагаем легкий и самообучающийся подход, Key frame-conditioned long video-LLM (Koala), который вводит обучаемые пространственно-временные запросы для адаптации предварительно обученных vLLM к обобщению на более длинные видеоролики. Наш подход вводит два новых токенизатора, которые зависят от визуальных токенов, вычисленных из разреженных ключевых кадров видео для понимания кратких и длинных моментов видео. Мы обучаем наш предложенный подход на наборе данных HowTo100M и демонстрируем его эффективность на нулевых тестах понимания длинных видеороликов, где он превосходит современные крупные модели на 3-6% по абсолютной точности по всем задачам. Удивительно, мы также эмпирически показываем, что наш подход не только помогает предварительно обученному vLLM понимать длинные видеоролики, но также повышает его точность в распознавании краткосрочных действий.
English
Long video question answering is a challenging task that involves recognizing
short-term activities and reasoning about their fine-grained relationships.
State-of-the-art video Large Language Models (vLLMs) hold promise as a viable
solution due to their demonstrated emergent capabilities on new tasks. However,
despite being trained on millions of short seconds-long videos, vLLMs are
unable to understand minutes-long videos and accurately answer questions about
them. To address this limitation, we propose a lightweight and self-supervised
approach, Key frame-conditioned long video-LLM (Koala), that introduces
learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to
longer videos. Our approach introduces two new tokenizers that condition on
visual tokens computed from sparse video key frames for understanding short and
long video moments. We train our proposed approach on HowTo100M and demonstrate
its effectiveness on zero-shot long video understanding benchmarks, where it
outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across
all tasks. Surprisingly, we also empirically show that our approach not only
helps a pretrained vLLM to understand long videos but also improves its
accuracy on short-term action recognition.Summary
AI-Generated Summary