Koala : Modèle de langage vidéo long conditionné par des images clés

papers.abstract

La réponse à des questions sur de longues vidéos est une tâche complexe qui implique la reconnaissance d'activités à court terme et le raisonnement sur leurs relations fines. Les modèles de langage de grande taille pour vidéos (vLLMs) de pointe apparaissent comme une solution prometteuse en raison de leurs capacités émergentes démontrées sur de nouvelles tâches. Cependant, bien qu'ils soient entraînés sur des millions de vidéos courtes de quelques secondes, les vLLMs ne parviennent pas à comprendre des vidéos de plusieurs minutes et à répondre avec précision à des questions les concernant. Pour surmonter cette limitation, nous proposons une approche légère et auto-supervisée, appelée Key frame-conditioned long video-LLM (Koala), qui introduit des requêtes spatiotemporelles apprenables pour adapter des vLLMs pré-entraînés à la généralisation sur des vidéos plus longues. Notre approche introduit deux nouveaux tokenizers qui se basent sur des tokens visuels calculés à partir de frames clés éparses de la vidéo, permettant de comprendre des moments courts et longs dans les vidéos. Nous entraînons notre approche sur HowTo100M et démontrons son efficacité sur des benchmarks de compréhension de longues vidéos en zero-shot, où elle surpasse les modèles de grande taille de pointe de 3 à 6 % en précision absolue sur toutes les tâches. De manière surprenante, nous montrons également empiriquement que notre approche aide non seulement un vLLM pré-entraîné à comprendre les longues vidéos, mais améliore aussi sa précision sur la reconnaissance d'actions à court terme.

English

Long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video Large Language Models (vLLMs) hold promise as a viable solution due to their demonstrated emergent capabilities on new tasks. However, despite being trained on millions of short seconds-long videos, vLLMs are unable to understand minutes-long videos and accurately answer questions about them. To address this limitation, we propose a lightweight and self-supervised approach, Key frame-conditioned long video-LLM (Koala), that introduces learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to longer videos. Our approach introduces two new tokenizers that condition on visual tokens computed from sparse video key frames for understanding short and long video moments. We train our proposed approach on HowTo100M and demonstrate its effectiveness on zero-shot long video understanding benchmarks, where it outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across all tasks. Surprisingly, we also empirically show that our approach not only helps a pretrained vLLM to understand long videos but also improves its accuracy on short-term action recognition.

Koala : Modèle de langage vidéo long conditionné par des images clés

Koala: Key frame-conditioned long video-LLM

papers.abstract

Support