ChatPaper.aiChatPaper

Koala: Schlüsselbild-bedingtes Langvideo-LLM

Koala: Key frame-conditioned long video-LLM

April 5, 2024
Autoren: Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko
cs.AI

Zusammenfassung

Die Beantwortung von langen Video-Fragen ist eine anspruchsvolle Aufgabe, die das Erkennen von kurzfristigen Aktivitäten und das Schlussfolgern über ihre feingranulierten Beziehungen beinhaltet. Video Large Language Models (vLLMs) auf dem neuesten Stand der Technik versprechen eine vielversprechende Lösung aufgrund ihrer gezeigten emergenten Fähigkeiten bei neuen Aufgaben. Trotz des Trainings auf Millionen von kurzen Videos von wenigen Sekunden Länge sind vLLMs nicht in der Lage, Videos von Minutenlänge zu verstehen und genau Fragen dazu zu beantworten. Um diese Einschränkung zu überwinden, schlagen wir einen leichten und selbstüberwachten Ansatz vor, den Keyframe-bedingten langen Video-LLM (Koala), der lernbare spatiotemporale Abfragen einführt, um vortrainierte vLLMs für eine Verallgemeinerung auf längere Videos anzupassen. Unser Ansatz führt zwei neue Tokenizer ein, die auf visuellen Tokens basieren, die aus spärlichen Schlüsselbildern von Videos berechnet werden, um kurze und lange Videomomente zu verstehen. Wir trainieren unseren vorgeschlagenen Ansatz auf HowTo100M und zeigen seine Wirksamkeit bei Zero-Shot-Tests zur Verständnis von langen Videos, bei denen er die Modelle auf dem neuesten Stand der Technik um 3-6% in absoluter Genauigkeit bei allen Aufgaben übertrifft. Überraschenderweise zeigen wir auch empirisch, dass unser Ansatz nicht nur einem vortrainierten vLLM hilft, lange Videos zu verstehen, sondern auch seine Genauigkeit bei der Erkennung kurzfristiger Aktionen verbessert.
English
Long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video Large Language Models (vLLMs) hold promise as a viable solution due to their demonstrated emergent capabilities on new tasks. However, despite being trained on millions of short seconds-long videos, vLLMs are unable to understand minutes-long videos and accurately answer questions about them. To address this limitation, we propose a lightweight and self-supervised approach, Key frame-conditioned long video-LLM (Koala), that introduces learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to longer videos. Our approach introduces two new tokenizers that condition on visual tokens computed from sparse video key frames for understanding short and long video moments. We train our proposed approach on HowTo100M and demonstrate its effectiveness on zero-shot long video understanding benchmarks, where it outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across all tasks. Surprisingly, we also empirically show that our approach not only helps a pretrained vLLM to understand long videos but also improves its accuracy on short-term action recognition.

Summary

AI-Generated Summary

PDF72December 15, 2024