LiveCC : Apprentissage de modèles de langage vidéo à grande échelle avec transcription vocale en flux continu
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
April 22, 2025
Auteurs: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI
Résumé
Les récents modèles de langage de grande taille pour la vidéo (Video LLMs) reposent souvent sur des annotations humaines coûteuses ou des API de modèles propriétaires (par exemple, GPT-4o) pour générer des données d'entraînement, ce qui limite leur entraînement à grande échelle. Dans cet article, nous explorons l'entraînement à grande échelle pour les Video LLMs en utilisant des transcriptions peu coûteuses issues de la reconnaissance automatique de la parole (ASR). Plus précisément, nous proposons une nouvelle approche d'entraînement en flux continu qui entrelace densément les mots de l'ASR et les images vidéo selon leurs horodatages. Par rapport aux études précédentes sur la représentation vision-langage avec l'ASR, notre méthode s'adapte naturellement aux caractéristiques de flux continu de l'ASR, permettant ainsi au modèle d'apprendre une modélisation vision-langage temporellement alignée et fine. Pour soutenir l'algorithme d'entraînement, nous introduisons un pipeline de production de données pour traiter les vidéos YouTube et leurs sous-titres (CC, identiques à l'ASR), aboutissant au jeu de données Live-CC-5M pour le pré-entraînement et au jeu de données Live-WhisperX-526K pour un réglage fin supervisé (SFT) de haute qualité. Remarquablement, même sans SFT, le modèle LiveCC-7B-Base pré-entraîné uniquement sur l'ASR démontre des performances compétitives en question-réponse vidéo générale et présente une nouvelle capacité en commentaire vidéo en temps réel. Pour évaluer cela, nous concevons soigneusement un nouveau benchmark LiveSports-3K, utilisant LLM-comme-juge pour mesurer le commentaire libre. Les expériences montrent que notre modèle final LiveCC-7B-Instruct peut surpasser des modèles avancés de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en qualité de commentaire, même en mode temps réel. Parallèlement, il atteint des résultats de pointe à l'échelle 7B/8B sur des benchmarks populaires de question-réponse vidéo tels que VideoMME et OVOBench, démontrant la large généralisabilité de notre approche. Toutes les ressources de cet article ont été publiées à l'adresse https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human
annotations or proprietary model APIs (e.g., GPT-4o) to produce training data,
which limits their training at scale. In this paper, we explore large-scale
training for Video LLM with cheap automatic speech recognition (ASR)
transcripts. Specifically, we propose a novel streaming training approach that
densely interleaves the ASR words and video frames according to their
timestamps. Compared to previous studies in vision-language representation with
ASR, our method naturally fits the streaming characteristics of ASR, thus
enabling the model to learn temporally-aligned, fine-grained vision-language
modeling. To support the training algorithm, we introduce a data production
pipeline to process YouTube videos and their closed captions (CC, same as ASR),
resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset
for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT,
the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general
video QA performance and exhibits a new capability in real-time video
commentary. To evaluate this, we carefully design a new LiveSports-3K
benchmark, using LLM-as-a-judge to measure the free-form commentary.
Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B
models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even
working in a real-time mode. Meanwhile, it achieves state-of-the-art results at
the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench,
demonstrating the broad generalizability of our approach. All resources of this
paper have been released at https://showlab.github.io/livecc.Summary
AI-Generated Summary