LiveCC: 大規模ストリーミング音声文字起こしを用いたビデオLLMの学習
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
April 22, 2025
著者: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI
要旨
最近のビデオ大規模言語モデル(Video LLM)は、トレーニングデータを生成するために高価な人間のアノテーションや専有モデルAPI(例:GPT-4o)に依存することが多く、大規模なトレーニングが制限されています。本論文では、安価な自動音声認識(ASR)トランスクリプトを用いたVideo LLMの大規模トレーニングを探求します。具体的には、ASRの単語とビデオフレームをタイムスタンプに従って密にインターリーブする新しいストリーミングトレーニング手法を提案します。ASRを用いた視覚-言語表現に関する従来の研究と比較して、本手法はASRのストリーミング特性に自然に適合し、時間的に整列した細粒度の視覚-言語モデリングをモデルに学習させることが可能です。このトレーニングアルゴリズムをサポートするため、YouTubeビデオとそのクローズドキャプション(CC、ASRと同じ)を処理するデータ生成パイプラインを導入し、事前学習用のLive-CC-5Mデータセットと高品質な教師ありファインチューニング(SFT)用のLive-WhisperX-526Kデータセットを作成しました。注目すべきは、SFTを行わなくても、ASRのみで事前学習されたLiveCC-7B-Baseモデルが、一般的なビデオQA性能で競争力を示し、リアルタイムビデオ解説という新たな能力を発揮することです。これを評価するため、LLMをジャッジとして使用し、自由形式の解説を測定する新しいLiveSports-3Kベンチマークを慎重に設計しました。実験結果は、最終的なLiveCC-7B-Instructモデルが、リアルタイムモードで動作しながらも、高度な72Bモデル(Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)を解説品質で上回ることを示しています。同時に、VideoMMEやOVOBenchなどの人気のあるビデオQAベンチマークで7B/8Bスケールにおける最先端の結果を達成し、本手法の広範な汎用性を実証しています。本論文のすべてのリソースはhttps://showlab.github.io/liveccで公開されています。
English
Recent video large language models (Video LLMs) often depend on costly human
annotations or proprietary model APIs (e.g., GPT-4o) to produce training data,
which limits their training at scale. In this paper, we explore large-scale
training for Video LLM with cheap automatic speech recognition (ASR)
transcripts. Specifically, we propose a novel streaming training approach that
densely interleaves the ASR words and video frames according to their
timestamps. Compared to previous studies in vision-language representation with
ASR, our method naturally fits the streaming characteristics of ASR, thus
enabling the model to learn temporally-aligned, fine-grained vision-language
modeling. To support the training algorithm, we introduce a data production
pipeline to process YouTube videos and their closed captions (CC, same as ASR),
resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset
for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT,
the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general
video QA performance and exhibits a new capability in real-time video
commentary. To evaluate this, we carefully design a new LiveSports-3K
benchmark, using LLM-as-a-judge to measure the free-form commentary.
Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B
models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even
working in a real-time mode. Meanwhile, it achieves state-of-the-art results at
the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench,
demonstrating the broad generalizability of our approach. All resources of this
paper have been released at https://showlab.github.io/livecc.Summary
AI-Generated Summary