ChatPaper.aiChatPaper

SlowFast-LLaVA: Una línea base sólida sin entrenamiento para modelos de lenguaje grandes de video

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

July 22, 2024
Autores: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI

Resumen

Proponemos SlowFast-LLaVA (o SF-LLaVA para abreviar), un modelo de lenguaje grande para video (LLM) sin entrenamiento que puede capturar conjuntamente la semántica espacial detallada y el contexto temporal a largo plazo sin exceder el presupuesto de tokens de los LLM comúnmente utilizados. Esto se logra mediante el uso de un diseño SlowFast de dos flujos de entrada para LLM de video para agregar características de fotogramas de video muestreados de manera efectiva. Específicamente, el camino lento extrae características a una baja velocidad de cuadros mientras mantiene tantos detalles espaciales como sea posible (por ejemplo, con 24x24 tokens), y el camino rápido opera a una alta velocidad de cuadros pero utiliza una zancada de agrupamiento espacial más grande (por ejemplo, submuestreo 6x) para centrarse en las señales de movimiento. Como resultado, este diseño nos permite capturar adecuadamente características espaciales y temporales que son beneficiosas para comprender detalles a lo largo del video. Los resultados experimentales muestran que SF-LLaVA supera a los métodos existentes sin entrenamiento en una amplia gama de tareas de video. En algunos benchmarks, logra un rendimiento comparable o incluso mejor en comparación con los LLM de video de última generación que se ajustan finamente en conjuntos de datos de video.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.

Summary

AI-Generated Summary

PDF415November 28, 2024