LiveCC: Aprendizaje de Video LLM con Transcripción de Voz en Streaming a Gran Escala
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
April 22, 2025
Autores: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI
Resumen
Los modelos de lenguaje de gran escala para video (Video LLMs) recientes suelen depender de costosas anotaciones humanas o APIs de modelos propietarios (por ejemplo, GPT-4o) para generar datos de entrenamiento, lo que limita su entrenamiento a gran escala. En este artículo, exploramos el entrenamiento a gran escala para Video LLM utilizando transcripciones económicas de reconocimiento automático de voz (ASR). Específicamente, proponemos un novedoso enfoque de entrenamiento en streaming que entrelaza densamente las palabras del ASR y los fotogramas de video según sus marcas de tiempo. En comparación con estudios previos en representación visión-lenguaje con ASR, nuestro método se ajusta naturalmente a las características de streaming del ASR, permitiendo así que el modelo aprenda un modelado visión-lenguaje temporalmente alineado y de grano fino. Para respaldar el algoritmo de entrenamiento, introducimos una pipeline de producción de datos para procesar videos de YouTube y sus subtítulos cerrados (CC, equivalentes a ASR), resultando en el conjunto de datos Live-CC-5M para pre-entrenamiento y el conjunto de datos Live-WhisperX-526K para ajuste fino supervisado (SFT) de alta calidad. Notablemente, incluso sin SFT, el modelo LiveCC-7B-Base pre-entrenado únicamente con ASR demuestra un rendimiento competitivo en preguntas y respuestas generales sobre video y exhibe una nueva capacidad en comentarios en tiempo real sobre video. Para evaluar esto, diseñamos cuidadosamente un nuevo benchmark LiveSports-3K, utilizando LLM-como-juez para medir los comentarios de forma libre. Los experimentos muestran que nuestro modelo final LiveCC-7B-Instruct puede superar a modelos avanzados de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en calidad de comentarios, incluso funcionando en modo tiempo real. Además, logra resultados de vanguardia en la escala de 7B/8B en benchmarks populares de preguntas y respuestas sobre video como VideoMME y OVOBench, demostrando la amplia generalizabilidad de nuestro enfoque. Todos los recursos de este artículo han sido publicados en https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human
annotations or proprietary model APIs (e.g., GPT-4o) to produce training data,
which limits their training at scale. In this paper, we explore large-scale
training for Video LLM with cheap automatic speech recognition (ASR)
transcripts. Specifically, we propose a novel streaming training approach that
densely interleaves the ASR words and video frames according to their
timestamps. Compared to previous studies in vision-language representation with
ASR, our method naturally fits the streaming characteristics of ASR, thus
enabling the model to learn temporally-aligned, fine-grained vision-language
modeling. To support the training algorithm, we introduce a data production
pipeline to process YouTube videos and their closed captions (CC, same as ASR),
resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset
for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT,
the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general
video QA performance and exhibits a new capability in real-time video
commentary. To evaluate this, we carefully design a new LiveSports-3K
benchmark, using LLM-as-a-judge to measure the free-form commentary.
Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B
models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even
working in a real-time mode. Meanwhile, it achieves state-of-the-art results at
the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench,
demonstrating the broad generalizability of our approach. All resources of this
paper have been released at https://showlab.github.io/livecc.Summary
AI-Generated Summary