Koala: Schlüsselbild-bedingtes Langvideo-LLM
Koala: Key frame-conditioned long video-LLM
April 5, 2024
Autoren: Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko
cs.AI
Zusammenfassung
Die Beantwortung von langen Video-Fragen ist eine anspruchsvolle Aufgabe, die das Erkennen von kurzfristigen Aktivitäten und das Schlussfolgern über ihre feingranulierten Beziehungen beinhaltet. Video Large Language Models (vLLMs) auf dem neuesten Stand der Technik versprechen eine vielversprechende Lösung aufgrund ihrer gezeigten emergenten Fähigkeiten bei neuen Aufgaben. Trotz des Trainings auf Millionen von kurzen Videos von wenigen Sekunden Länge sind vLLMs nicht in der Lage, Videos von Minutenlänge zu verstehen und genau Fragen dazu zu beantworten. Um diese Einschränkung zu überwinden, schlagen wir einen leichten und selbstüberwachten Ansatz vor, den Keyframe-bedingten langen Video-LLM (Koala), der lernbare spatiotemporale Abfragen einführt, um vortrainierte vLLMs für eine Verallgemeinerung auf längere Videos anzupassen. Unser Ansatz führt zwei neue Tokenizer ein, die auf visuellen Tokens basieren, die aus spärlichen Schlüsselbildern von Videos berechnet werden, um kurze und lange Videomomente zu verstehen. Wir trainieren unseren vorgeschlagenen Ansatz auf HowTo100M und zeigen seine Wirksamkeit bei Zero-Shot-Tests zur Verständnis von langen Videos, bei denen er die Modelle auf dem neuesten Stand der Technik um 3-6% in absoluter Genauigkeit bei allen Aufgaben übertrifft. Überraschenderweise zeigen wir auch empirisch, dass unser Ansatz nicht nur einem vortrainierten vLLM hilft, lange Videos zu verstehen, sondern auch seine Genauigkeit bei der Erkennung kurzfristiger Aktionen verbessert.
English
Long video question answering is a challenging task that involves recognizing
short-term activities and reasoning about their fine-grained relationships.
State-of-the-art video Large Language Models (vLLMs) hold promise as a viable
solution due to their demonstrated emergent capabilities on new tasks. However,
despite being trained on millions of short seconds-long videos, vLLMs are
unable to understand minutes-long videos and accurately answer questions about
them. To address this limitation, we propose a lightweight and self-supervised
approach, Key frame-conditioned long video-LLM (Koala), that introduces
learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to
longer videos. Our approach introduces two new tokenizers that condition on
visual tokens computed from sparse video key frames for understanding short and
long video moments. We train our proposed approach on HowTo100M and demonstrate
its effectiveness on zero-shot long video understanding benchmarks, where it
outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across
all tasks. Surprisingly, we also empirically show that our approach not only
helps a pretrained vLLM to understand long videos but also improves its
accuracy on short-term action recognition.Summary
AI-Generated Summary