ChatPaper.aiChatPaper

LiveCC: Apprendimento di Modelli Linguistici per Video con Trascrizione del Parlato in Streaming su Larga Scala

LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

April 22, 2025
Autori: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI

Abstract

I recenti modelli linguistici di grandi dimensioni per video (Video LLM) spesso dipendono da costose annotazioni umane o da API di modelli proprietari (ad esempio, GPT-4o) per generare dati di addestramento, il che limita il loro training su larga scala. In questo articolo, esploriamo l'addestramento su larga scala per Video LLM utilizzando trascrizioni economiche di riconoscimento automatico del parlato (ASR). Nello specifico, proponiamo un nuovo approccio di training in streaming che intercala densamente le parole ASR e i fotogrammi video in base ai loro timestamp. Rispetto agli studi precedenti sulla rappresentazione visivo-linguistica con ASR, il nostro metodo si adatta naturalmente alle caratteristiche di streaming dell'ASR, consentendo al modello di apprendere una modellizzazione visivo-linguistica temporallmente allineata e fine. Per supportare l'algoritmo di training, introduciamo una pipeline di produzione dati per elaborare video di YouTube e i loro sottotitoli (CC, equivalenti all'ASR), ottenendo il dataset Live-CC-5M per il pre-training e il dataset Live-WhisperX-526K per il fine-tuning supervisionato (SFT) di alta qualità. Notevolmente, anche senza SFT, il modello LiveCC-7B-Base pre-addestrato solo con ASR dimostra prestazioni competitive nel QA video generale e mostra una nuova capacità nel commento video in tempo reale. Per valutare ciò, abbiamo progettato con cura un nuovo benchmark LiveSports-3K, utilizzando LLM come giudice per misurare il commento libero. Gli esperimenti mostrano che il nostro modello finale LiveCC-7B-Instruct può superare modelli avanzati da 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) nella qualità del commento, anche operando in modalità real-time. Nel frattempo, raggiunge risultati all'avanguardia nella scala 7B/8B su benchmark popolari di QA video come VideoMME e OVOBench, dimostrando l'ampia generalizzabilità del nostro approccio. Tutte le risorse di questo articolo sono state rilasciate su https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.

Summary

AI-Generated Summary

PDF342April 23, 2025