LiveCC: Обучение языковой модели для видео с потоковой транскрипцией речи в масштабе
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
April 22, 2025
Авторы: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI
Аннотация
Современные крупные языковые модели для видео (Video LLMs) часто зависят от дорогостоящих человеческих аннотаций или проприетарных API моделей (например, GPT-4o) для создания обучающих данных, что ограничивает их масштабируемое обучение. В данной работе мы исследуем крупномасштабное обучение Video LLM с использованием дешевых транскриптов автоматического распознавания речи (ASR). В частности, мы предлагаем новый подход к потоковому обучению, который плотно переплетает слова ASR и кадры видео в соответствии с их временными метками. По сравнению с предыдущими исследованиями в области представления "визуальный язык" с использованием ASR, наш метод естественным образом соответствует потоковым характеристикам ASR, что позволяет модели изучать временно согласованное, детализированное моделирование "визуальный язык". Для поддержки алгоритма обучения мы представляем конвейер обработки данных для обработки видео с YouTube и их субтитров (CC, аналогичных ASR), что приводит к созданию набора данных Live-CC-5M для предварительного обучения и набора данных Live-WhisperX-526K для высококачественного контролируемого тонкого настройки (SFT). Примечательно, что даже без SFT модель LiveCC-7B-Base, предварительно обученная только на ASR, демонстрирует конкурентоспособную производительность в общих задачах видео-QA и проявляет новую способность в реальном времени комментировать видео. Для оценки этого мы тщательно разработали новый бенчмарк LiveSports-3K, используя LLM-как-судью для измерения свободного комментария. Эксперименты показывают, что наша финальная модель LiveCC-7B-Instruct может превзойти продвинутые 72B модели (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) по качеству комментариев, даже работая в режиме реального времени. В то же время она достигает современных результатов на уровне 7B/8B на популярных бенчмарках видео-QA, таких как VideoMME и OVOBench, демонстрируя широкую обобщаемость нашего подхода. Все ресурсы данной работы опубликованы на https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human
annotations or proprietary model APIs (e.g., GPT-4o) to produce training data,
which limits their training at scale. In this paper, we explore large-scale
training for Video LLM with cheap automatic speech recognition (ASR)
transcripts. Specifically, we propose a novel streaming training approach that
densely interleaves the ASR words and video frames according to their
timestamps. Compared to previous studies in vision-language representation with
ASR, our method naturally fits the streaming characteristics of ASR, thus
enabling the model to learn temporally-aligned, fine-grained vision-language
modeling. To support the training algorithm, we introduce a data production
pipeline to process YouTube videos and their closed captions (CC, same as ASR),
resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset
for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT,
the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general
video QA performance and exhibits a new capability in real-time video
commentary. To evaluate this, we carefully design a new LiveSports-3K
benchmark, using LLM-as-a-judge to measure the free-form commentary.
Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B
models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even
working in a real-time mode. Meanwhile, it achieves state-of-the-art results at
the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench,
demonstrating the broad generalizability of our approach. All resources of this
paper have been released at https://showlab.github.io/livecc.Summary
AI-Generated Summary