SlowFast-LLaVA: Una línea base sólida sin entrenamiento para modelos de lenguaje grandes de video
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
July 22, 2024
Autores: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI
Resumen
Proponemos SlowFast-LLaVA (o SF-LLaVA para abreviar), un modelo de lenguaje grande para video (LLM) sin entrenamiento que puede capturar conjuntamente la semántica espacial detallada y el contexto temporal a largo plazo sin exceder el presupuesto de tokens de los LLM comúnmente utilizados. Esto se logra mediante el uso de un diseño SlowFast de dos flujos de entrada para LLM de video para agregar características de fotogramas de video muestreados de manera efectiva. Específicamente, el camino lento extrae características a una baja velocidad de cuadros mientras mantiene tantos detalles espaciales como sea posible (por ejemplo, con 24x24 tokens), y el camino rápido opera a una alta velocidad de cuadros pero utiliza una zancada de agrupamiento espacial más grande (por ejemplo, submuestreo 6x) para centrarse en las señales de movimiento. Como resultado, este diseño nos permite capturar adecuadamente características espaciales y temporales que son beneficiosas para comprender detalles a lo largo del video. Los resultados experimentales muestran que SF-LLaVA supera a los métodos existentes sin entrenamiento en una amplia gama de tareas de video. En algunos benchmarks, logra un rendimiento comparable o incluso mejor en comparación con los LLM de video de última generación que se ajustan finamente en conjuntos de datos de video.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video
large language model (LLM) that can jointly capture the detailed spatial
semantics and long-range temporal context without exceeding the token budget of
commonly used LLMs. This is realized by using a two-stream SlowFast design of
inputs for Video LLMs to aggregate features from sampled video frames in an
effective way. Specifically, the Slow pathway extracts features at a low frame
rate while keeping as many spatial details as possible (e.g., with 24x24
tokens), and the Fast pathway operates on a high frame rate but uses a larger
spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As
a result, this design allows us to adequately capture both spatial and temporal
features that are beneficial for understanding details along the video.
Experimental results show that SF-LLaVA outperforms existing training-free
methods on a wide range of video tasks. On some benchmarks, it achieves
comparable or even better performance compared to state-of-the-art Video LLMs
that are fine-tuned on video datasets.Summary
AI-Generated Summary