ChatPaper.aiChatPaper

VideoLLM-online: Modelo de Linguagem Grande para Vídeo Online em Transmissão ao Vivo

VideoLLM-online: Online Video Large Language Model for Streaming Video

June 17, 2024
Autores: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI

Resumo

Modelos de Linguagem de Grande Porte recentes foram aprimorados com capacidades visuais, permitindo que compreendam imagens, vídeos e conteúdo intercalado de visão e linguagem. No entanto, os métodos de aprendizado desses grandes modelos multimodais geralmente tratam os vídeos como clipes predeterminados, tornando-os menos eficazes e eficientes no processamento de entradas de vídeo em fluxo contínuo. Neste artigo, propomos uma nova estrutura de Aprendizado-em-Fluxo-de-Vídeo (LIVE), que permite conversas alinhadas temporalmente, de longo contexto e em tempo real dentro de um fluxo contínuo de vídeo. Nossa estrutura LIVE compreende abordagens abrangentes para alcançar o diálogo em fluxo de vídeo, incluindo: (1) um objetivo de treinamento projetado para realizar modelagem de linguagem para entradas contínuas em fluxo, (2) um esquema de geração de dados que converte anotações temporais offline em um formato de diálogo em fluxo, e (3) um pipeline de inferência otimizado para acelerar as respostas do modelo em fluxos de vídeo do mundo real. Com nossa estrutura LIVE, construímos o modelo VideoLLM-online sobre Llama-2/Llama-3 e demonstramos suas vantagens significativas no processamento de vídeos em fluxo. Por exemplo, em média, nosso modelo pode suportar diálogo em fluxo em um clipe de vídeo de 5 minutos a mais de 10 FPS em uma GPU A100. Além disso, ele também apresenta desempenho de ponta em benchmarks públicos de vídeo offline, como reconhecimento, legendagem e previsão. O código, modelo, dados e demonstração estão disponíveis em https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities, enabling them to comprehend images, videos, and interleaved vision-language content. However, the learning methods of these large multimodal models typically treat videos as predetermined clips, making them less effective and efficient at handling streaming video inputs. In this paper, we propose a novel Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned, long-context, and real-time conversation within a continuous video stream. Our LIVE framework comprises comprehensive approaches to achieve video streaming dialogue, encompassing: (1) a training objective designed to perform language modeling for continuous streaming inputs, (2) a data generation scheme that converts offline temporal annotations into a streaming dialogue format, and (3) an optimized inference pipeline to speed up the model responses in real-world video streams. With our LIVE framework, we built VideoLLM-online model upon Llama-2/Llama-3 and demonstrate its significant advantages in processing streaming videos. For instance, on average, our model can support streaming dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it also showcases state-of-the-art performance on public offline video benchmarks, such as recognition, captioning, and forecasting. The code, model, data, and demo have been made available at https://showlab.github.io/videollm-online.
PDF241December 6, 2024