SlowFast-LLaVA: Una línea base sólida sin entrenamiento para modelos de lenguaje grandes de videoSlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language
Models
Proponemos SlowFast-LLaVA (o SF-LLaVA para abreviar), un modelo de lenguaje grande para video (LLM) sin entrenamiento que puede capturar conjuntamente la semántica espacial detallada y el contexto temporal a largo plazo sin exceder el presupuesto de tokens de los LLM comúnmente utilizados. Esto se logra mediante el uso de un diseño SlowFast de dos flujos de entrada para LLM de video para agregar características de fotogramas de video muestreados de manera efectiva. Específicamente, el camino lento extrae características a una baja velocidad de cuadros mientras mantiene tantos detalles espaciales como sea posible (por ejemplo, con 24x24 tokens), y el camino rápido opera a una alta velocidad de cuadros pero utiliza una zancada de agrupamiento espacial más grande (por ejemplo, submuestreo 6x) para centrarse en las señales de movimiento. Como resultado, este diseño nos permite capturar adecuadamente características espaciales y temporales que son beneficiosas para comprender detalles a lo largo del video. Los resultados experimentales muestran que SF-LLaVA supera a los métodos existentes sin entrenamiento en una amplia gama de tareas de video. En algunos benchmarks, logra un rendimiento comparable o incluso mejor en comparación con los LLM de video de última generación que se ajustan finamente en conjuntos de datos de video.