LiveCC: Aprendizado de Modelos de Linguagem de Vídeo em Grande Escala com Transcrição de Fala em Tempo Real
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
April 22, 2025
Autores: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI
Resumo
Modelos recentes de linguagem de grande escala para vídeo (Video LLMs) frequentemente dependem de anotações humanas custosas ou APIs de modelos proprietários (por exemplo, GPT-4o) para gerar dados de treinamento, o que limita seu treinamento em larga escala. Neste artigo, exploramos o treinamento em grande escala para Video LLMs utilizando transcrições baratas de reconhecimento automático de fala (ASR). Especificamente, propomos uma nova abordagem de treinamento em fluxo que intercala densamente as palavras do ASR e os quadros de vídeo de acordo com seus timestamps. Em comparação com estudos anteriores em representação visão-linguagem com ASR, nosso método se ajusta naturalmente às características de fluxo do ASR, permitindo que o modelo aprenda modelagem visão-linguagem temporalmente alinhada e de granularidade fina. Para suportar o algoritmo de treinamento, introduzimos um pipeline de produção de dados para processar vídeos do YouTube e suas legendas ocultas (CC, equivalentes ao ASR), resultando no conjunto de dados Live-CC-5M para pré-treinamento e no conjunto de dados Live-WhisperX-526K para ajuste fino supervisionado (SFT) de alta qualidade. Notavelmente, mesmo sem SFT, o modelo LiveCC-7B-Base pré-treinado apenas com ASR demonstra desempenho competitivo em QA geral de vídeo e exibe uma nova capacidade em comentários em tempo real de vídeo. Para avaliar isso, projetamos cuidadosamente um novo benchmark LiveSports-3K, utilizando LLM-como-juiz para medir o comentário de forma livre. Experimentos mostram que nosso modelo final LiveCC-7B-Instruct pode superar modelos avançados de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) em qualidade de comentário, mesmo operando em modo de tempo real. Enquanto isso, ele alcança resultados de ponta na escala 7B/8B em benchmarks populares de QA de vídeo, como VideoMME e OVOBench, demonstrando a ampla generalizabilidade de nossa abordagem. Todos os recursos deste artigo foram liberados em https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human
annotations or proprietary model APIs (e.g., GPT-4o) to produce training data,
which limits their training at scale. In this paper, we explore large-scale
training for Video LLM with cheap automatic speech recognition (ASR)
transcripts. Specifically, we propose a novel streaming training approach that
densely interleaves the ASR words and video frames according to their
timestamps. Compared to previous studies in vision-language representation with
ASR, our method naturally fits the streaming characteristics of ASR, thus
enabling the model to learn temporally-aligned, fine-grained vision-language
modeling. To support the training algorithm, we introduce a data production
pipeline to process YouTube videos and their closed captions (CC, same as ASR),
resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset
for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT,
the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general
video QA performance and exhibits a new capability in real-time video
commentary. To evaluate this, we carefully design a new LiveSports-3K
benchmark, using LLM-as-a-judge to measure the free-form commentary.
Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B
models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even
working in a real-time mode. Meanwhile, it achieves state-of-the-art results at
the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench,
demonstrating the broad generalizability of our approach. All resources of this
paper have been released at https://showlab.github.io/livecc.Summary
AI-Generated Summary