Unificación de Codificadores Visuales Especializados para Modelos de Lenguaje de Video

Resumen

El reciente surgimiento de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha introducido capacidades sofisticadas de razonamiento en el ámbito del video a través de Modelos de Lenguaje Grandes para Video (VideoLLMs). Sin embargo, los VideoLLMs actualmente dependen de un único codificador visual para todo su procesamiento visual, lo que limita la cantidad y tipo de información visual que se puede transmitir al LLM. Nuestro método, MERV, Representación Multi-Codificador de Videos, en cambio, aprovecha múltiples codificadores visuales congelados para crear una representación unificada de un video, proporcionando al VideoLLM un conjunto completo de conocimientos visuales especializados. Alinear espacial y temporalmente las características de cada codificador nos permite abordar una gama más amplia de preguntas de comprensión de video abiertas y de opción múltiple, superando a trabajos previos líderes en el estado del arte. MERV tiene una precisión hasta un 3.7% mejor que Video-LLaVA en las pruebas estándar de comprensión de video, y también obtiene una puntuación mejor en Video-ChatGPT. Mejoramos además a SeViLA, el anterior líder en precisión de Pruebas de Percepción sin entrenamiento previo, en un 2.2%. MERV introduce un número mínimo de parámetros adicionales y se entrena más rápido que los métodos equivalentes de un solo codificador, al mismo tiempo que paraleliza el procesamiento visual. Finalmente, proporcionamos evidencia cualitativa de que MERV captura con éxito conocimiento de dominio de cada uno de sus codificadores. Nuestros resultados ofrecen direcciones prometedoras en la utilización de múltiples codificadores visuales para una comprensión completa de videos.

English

The recent advent of Large Language Models (LLMs) has ushered sophisticated reasoning capabilities into the realm of video through Video Large Language Models (VideoLLMs). However, VideoLLMs currently rely on a single vision encoder for all of their visual processing, which limits the amount and type of visual information that can be conveyed to the LLM. Our method, MERV, Multi-Encoder Representation of Videos, instead leverages multiple frozen visual encoders to create a unified representation of a video, providing the VideoLLM with a comprehensive set of specialized visual knowledge. Spatio-temporally aligning the features from each encoder allows us to tackle a wider range of open-ended and multiple-choice video understanding questions and outperform prior state-of-the-art works. MERV is up to 3.7% better in accuracy than Video-LLaVA across the standard suite video understanding benchmarks, while also having a better Video-ChatGPT score. We also improve upon SeViLA, the previous best on zero-shot Perception Test accuracy, by 2.2%. MERV introduces minimal extra parameters and trains faster than equivalent single-encoder methods while parallelizing the visual processing. Finally, we provide qualitative evidence that MERV successfully captures domain knowledge from each of its encoders. Our results offer promising directions in utilizing multiple vision encoders for comprehensive video understanding.

Unificación de Codificadores Visuales Especializados para Modelos de Lenguaje de Video

Unifying Specialized Visual Encoders for Video Language Models

Resumen

Support