LiveCC : Apprentissage de modèles de langage vidéo à grande échelle avec transcription vocale en flux continu

papers.abstract

Les récents modèles de langage de grande taille pour la vidéo (Video LLMs) reposent souvent sur des annotations humaines coûteuses ou des API de modèles propriétaires (par exemple, GPT-4o) pour générer des données d'entraînement, ce qui limite leur entraînement à grande échelle. Dans cet article, nous explorons l'entraînement à grande échelle pour les Video LLMs en utilisant des transcriptions peu coûteuses issues de la reconnaissance automatique de la parole (ASR). Plus précisément, nous proposons une nouvelle approche d'entraînement en flux continu qui entrelace densément les mots de l'ASR et les images vidéo selon leurs horodatages. Par rapport aux études précédentes sur la représentation vision-langage avec l'ASR, notre méthode s'adapte naturellement aux caractéristiques de flux continu de l'ASR, permettant ainsi au modèle d'apprendre une modélisation vision-langage temporellement alignée et fine. Pour soutenir l'algorithme d'entraînement, nous introduisons un pipeline de production de données pour traiter les vidéos YouTube et leurs sous-titres (CC, identiques à l'ASR), aboutissant au jeu de données Live-CC-5M pour le pré-entraînement et au jeu de données Live-WhisperX-526K pour un réglage fin supervisé (SFT) de haute qualité. Remarquablement, même sans SFT, le modèle LiveCC-7B-Base pré-entraîné uniquement sur l'ASR démontre des performances compétitives en question-réponse vidéo générale et présente une nouvelle capacité en commentaire vidéo en temps réel. Pour évaluer cela, nous concevons soigneusement un nouveau benchmark LiveSports-3K, utilisant LLM-comme-juge pour mesurer le commentaire libre. Les expériences montrent que notre modèle final LiveCC-7B-Instruct peut surpasser des modèles avancés de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en qualité de commentaire, même en mode temps réel. Parallèlement, il atteint des résultats de pointe à l'échelle 7B/8B sur des benchmarks populaires de question-réponse vidéo tels que VideoMME et OVOBench, démontrant la large généralisabilité de notre approche. Toutes les ressources de cet article ont été publiées à l'adresse https://showlab.github.io/livecc.

English

Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.

LiveCC : Apprentissage de modèles de langage vidéo à grande échelle avec transcription vocale en flux continu

LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

papers.abstract

Support