StreamChat: Chateando con Video en Streaming

Resumen

Este documento presenta StreamChat, un enfoque novedoso que mejora las capacidades de interacción de los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) con contenido de video en streaming. En escenarios de interacción en tiempo real, los métodos existentes se basan únicamente en la información visual disponible en el momento en que se plantea una pregunta, lo que resulta en retrasos significativos ya que el modelo no está al tanto de los cambios posteriores en el video en streaming. StreamChat aborda esta limitación actualizando de manera innovadora el contexto visual en cada paso de decodificación, asegurando que el modelo utilice contenido de video actualizado a lo largo del proceso de decodificación. Además, introducimos una arquitectura flexible y eficiente basada en atención cruzada para procesar entradas de video en streaming dinámicas manteniendo la eficiencia de inferencia para interacciones en tiempo real. Además, construimos un nuevo conjunto de datos de instrucciones densas para facilitar el entrenamiento de modelos de interacción en tiempo real, complementado con un mecanismo paralelo 3D-RoPE que codifica la información temporal relativa de los tokens visuales y de texto. Los resultados experimentales demuestran que StreamChat logra un rendimiento competitivo en benchmarks establecidos de imágenes y videos, y muestra capacidades superiores en escenarios de interacción en tiempo real en comparación con los LMM de video de última generación.

English

This paper presents StreamChat, a novel approach that enhances the interaction capabilities of Large Multimodal Models (LMMs) with streaming video content. In streaming interaction scenarios, existing methods rely solely on visual information available at the moment a question is posed, resulting in significant delays as the model remains unaware of subsequent changes in the streaming video. StreamChat addresses this limitation by innovatively updating the visual context at each decoding step, ensuring that the model utilizes up-to-date video content throughout the decoding process. Additionally, we introduce a flexible and efficient crossattention-based architecture to process dynamic streaming inputs while maintaining inference efficiency for streaming interactions. Furthermore, we construct a new dense instruction dataset to facilitate the training of streaming interaction models, complemented by a parallel 3D-RoPE mechanism that encodes the relative temporal information of visual and text tokens. Experimental results demonstrate that StreamChat achieves competitive performance on established image and video benchmarks and exhibits superior capabilities in streaming interaction scenarios compared to state-of-the-art video LMM.

StreamChat: Chateando con Video en Streaming

StreamChat: Chatting with Streaming Video

Resumen

Support