Koala : Modèle de langage vidéo long conditionné par des images clés
Koala: Key frame-conditioned long video-LLM
April 5, 2024
Auteurs: Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko
cs.AI
Résumé
La réponse à des questions sur de longues vidéos est une tâche complexe qui implique la reconnaissance d'activités à court terme et le raisonnement sur leurs relations fines. Les modèles de langage de grande taille pour vidéos (vLLMs) de pointe apparaissent comme une solution prometteuse en raison de leurs capacités émergentes démontrées sur de nouvelles tâches. Cependant, bien qu'ils soient entraînés sur des millions de vidéos courtes de quelques secondes, les vLLMs ne parviennent pas à comprendre des vidéos de plusieurs minutes et à répondre avec précision à des questions les concernant. Pour surmonter cette limitation, nous proposons une approche légère et auto-supervisée, appelée Key frame-conditioned long video-LLM (Koala), qui introduit des requêtes spatiotemporelles apprenables pour adapter des vLLMs pré-entraînés à la généralisation sur des vidéos plus longues. Notre approche introduit deux nouveaux tokenizers qui se basent sur des tokens visuels calculés à partir de frames clés éparses de la vidéo, permettant de comprendre des moments courts et longs dans les vidéos. Nous entraînons notre approche sur HowTo100M et démontrons son efficacité sur des benchmarks de compréhension de longues vidéos en zero-shot, où elle surpasse les modèles de grande taille de pointe de 3 à 6 % en précision absolue sur toutes les tâches. De manière surprenante, nous montrons également empiriquement que notre approche aide non seulement un vLLM pré-entraîné à comprendre les longues vidéos, mais améliore aussi sa précision sur la reconnaissance d'actions à court terme.
English
Long video question answering is a challenging task that involves recognizing
short-term activities and reasoning about their fine-grained relationships.
State-of-the-art video Large Language Models (vLLMs) hold promise as a viable
solution due to their demonstrated emergent capabilities on new tasks. However,
despite being trained on millions of short seconds-long videos, vLLMs are
unable to understand minutes-long videos and accurately answer questions about
them. To address this limitation, we propose a lightweight and self-supervised
approach, Key frame-conditioned long video-LLM (Koala), that introduces
learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to
longer videos. Our approach introduces two new tokenizers that condition on
visual tokens computed from sparse video key frames for understanding short and
long video moments. We train our proposed approach on HowTo100M and demonstrate
its effectiveness on zero-shot long video understanding benchmarks, where it
outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across
all tasks. Surprisingly, we also empirically show that our approach not only
helps a pretrained vLLM to understand long videos but also improves its
accuracy on short-term action recognition.Summary
AI-Generated Summary