ChatPaper.aiChatPaper

LiveCC: Skalierbares Training von Video-LLMs mit Streaming-Sprachtranskription

LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

April 22, 2025
Autoren: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI

Zusammenfassung

Aktuelle Video-Großsprachmodelle (Video LLMs) sind oft auf kostspielige menschliche Annotationen oder proprietäre Modell-APIs (z. B. GPT-4o) angewiesen, um Trainingsdaten zu generieren, was ihr Training in großem Maßstab einschränkt. In diesem Artikel untersuchen wir das groß angelegte Training von Video LLMs mit kostengünstigen automatischen Spracherkennungs-Transkripten (ASR). Konkret schlagen wir einen neuartigen Streaming-Trainingsansatz vor, der die ASR-Wörter und Videobilder entsprechend ihrer Zeitstempel dicht miteinander verwebt. Im Vergleich zu früheren Studien zur visuell-sprachlichen Repräsentation mit ASR passt sich unsere Methode natürlich den Streaming-Eigenschaften von ASR an und ermöglicht es dem Modell, zeitlich abgestimmte, feingranulare visuell-sprachliche Modellierung zu erlernen. Um den Trainingsalgorithmus zu unterstützen, führen wir eine Datenproduktionspipeline ein, die YouTube-Videos und deren Untertitel (CC, identisch mit ASR) verarbeitet, wodurch der Live-CC-5M-Datensatz für das Pre-Training und der Live-WhisperX-526K-Datensatz für hochwertiges überwachtes Fein-Tuning (SFT) entstehen. Bemerkenswerterweise zeigt das nur mit ASR vortrainierte LiveCC-7B-Base-Modell, selbst ohne SFT, eine wettbewerbsfähige allgemeine Video-QA-Leistung und demonstriert eine neue Fähigkeit in der Echtzeit-Videokommentierung. Um dies zu bewerten, entwerfen wir sorgfältig einen neuen LiveSports-3K-Benchmark, der LLM-as-a-Judge verwendet, um die freie Kommentierung zu messen. Experimente zeigen, dass unser finales LiveCC-7B-Instruct-Modell fortschrittliche 72B-Modelle (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in der Kommentierungsqualität übertreffen kann, selbst wenn es in einem Echtzeitmodus arbeitet. Gleichzeitig erzielt es auf der 7B/8B-Skala state-of-the-art Ergebnisse auf beliebten Video-QA-Benchmarks wie VideoMME und OVOBench, was die breite Generalisierbarkeit unseres Ansatzes unterstreicht. Alle Ressourcen dieser Arbeit wurden unter https://showlab.github.io/livecc veröffentlicht.
English
Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.

Summary

AI-Generated Summary

PDF322April 23, 2025