ChatPaper.aiChatPaper

VideoLLM-online: Modelo de Lenguaje Grande en Línea para Video en Streaming

VideoLLM-online: Online Video Large Language Model for Streaming Video

June 17, 2024
Autores: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) recientes han sido mejorados con capacidades visuales, permitiéndoles comprender imágenes, videos y contenido intercalado de visión y lenguaje. Sin embargo, los métodos de aprendizaje de estos modelos multimodales grandes suelen tratar los videos como clips predeterminados, lo que los hace menos efectivos y eficientes al manejar entradas de video en tiempo real. En este artículo, proponemos un marco novedoso llamado Aprendizaje-en-Flujo-de-Video (LIVE, por sus siglas en inglés), que permite conversaciones alineadas temporalmente, de contexto largo y en tiempo real dentro de un flujo de video continuo. Nuestro marco LIVE incluye enfoques integrales para lograr diálogos en flujos de video, abarcando: (1) un objetivo de entrenamiento diseñado para realizar modelado de lenguaje en entradas de flujo continuo, (2) un esquema de generación de datos que convierte anotaciones temporales offline en un formato de diálogo en flujo, y (3) una canalización de inferencia optimizada para acelerar las respuestas del modelo en flujos de video del mundo real. Con nuestro marco LIVE, construimos el modelo VideoLLM-online basado en Llama-2/Llama-3 y demostramos sus ventajas significativas en el procesamiento de videos en tiempo real. Por ejemplo, en promedio, nuestro modelo puede soportar diálogos en flujo en un clip de video de 5 minutos a más de 10 FPS en una GPU A100. Además, también muestra un rendimiento de vanguardia en benchmarks públicos de video offline, como reconocimiento, subtitulado y predicción. El código, modelo, datos y demo están disponibles en https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities, enabling them to comprehend images, videos, and interleaved vision-language content. However, the learning methods of these large multimodal models typically treat videos as predetermined clips, making them less effective and efficient at handling streaming video inputs. In this paper, we propose a novel Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned, long-context, and real-time conversation within a continuous video stream. Our LIVE framework comprises comprehensive approaches to achieve video streaming dialogue, encompassing: (1) a training objective designed to perform language modeling for continuous streaming inputs, (2) a data generation scheme that converts offline temporal annotations into a streaming dialogue format, and (3) an optimized inference pipeline to speed up the model responses in real-world video streams. With our LIVE framework, we built VideoLLM-online model upon Llama-2/Llama-3 and demonstrate its significant advantages in processing streaming videos. For instance, on average, our model can support streaming dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it also showcases state-of-the-art performance on public offline video benchmarks, such as recognition, captioning, and forecasting. The code, model, data, and demo have been made available at https://showlab.github.io/videollm-online.

Summary

AI-Generated Summary

PDF251December 6, 2024