StreamChat: Chateando con Video en Streaming
StreamChat: Chatting with Streaming Video
December 11, 2024
Autores: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare
cs.AI
Resumen
Este documento presenta StreamChat, un enfoque novedoso que mejora las capacidades de interacción de los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) con contenido de video en streaming. En escenarios de interacción en tiempo real, los métodos existentes se basan únicamente en la información visual disponible en el momento en que se plantea una pregunta, lo que resulta en retrasos significativos ya que el modelo no está al tanto de los cambios posteriores en el video en streaming. StreamChat aborda esta limitación actualizando de manera innovadora el contexto visual en cada paso de decodificación, asegurando que el modelo utilice contenido de video actualizado a lo largo del proceso de decodificación. Además, introducimos una arquitectura flexible y eficiente basada en atención cruzada para procesar entradas de video en streaming dinámicas manteniendo la eficiencia de inferencia para interacciones en tiempo real. Además, construimos un nuevo conjunto de datos de instrucciones densas para facilitar el entrenamiento de modelos de interacción en tiempo real, complementado con un mecanismo paralelo 3D-RoPE que codifica la información temporal relativa de los tokens visuales y de texto. Los resultados experimentales demuestran que StreamChat logra un rendimiento competitivo en benchmarks establecidos de imágenes y videos, y muestra capacidades superiores en escenarios de interacción en tiempo real en comparación con los LMM de video de última generación.
English
This paper presents StreamChat, a novel approach that enhances the
interaction capabilities of Large Multimodal Models (LMMs) with streaming video
content. In streaming interaction scenarios, existing methods rely solely on
visual information available at the moment a question is posed, resulting in
significant delays as the model remains unaware of subsequent changes in the
streaming video. StreamChat addresses this limitation by innovatively updating
the visual context at each decoding step, ensuring that the model utilizes
up-to-date video content throughout the decoding process. Additionally, we
introduce a flexible and efficient crossattention-based architecture to process
dynamic streaming inputs while maintaining inference efficiency for streaming
interactions. Furthermore, we construct a new dense instruction dataset to
facilitate the training of streaming interaction models, complemented by a
parallel 3D-RoPE mechanism that encodes the relative temporal information of
visual and text tokens. Experimental results demonstrate that StreamChat
achieves competitive performance on established image and video benchmarks and
exhibits superior capabilities in streaming interaction scenarios compared to
state-of-the-art video LMM.Summary
AI-Generated Summary