Unificación de Codificadores Visuales Especializados para Modelos de Lenguaje de Video
Unifying Specialized Visual Encoders for Video Language Models
January 2, 2025
Autores: Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky
cs.AI
Resumen
El reciente surgimiento de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha introducido capacidades sofisticadas de razonamiento en el ámbito del video a través de Modelos de Lenguaje Grandes para Video (VideoLLMs). Sin embargo, los VideoLLMs actualmente dependen de un único codificador visual para todo su procesamiento visual, lo que limita la cantidad y tipo de información visual que se puede transmitir al LLM. Nuestro método, MERV, Representación Multi-Codificador de Videos, en cambio, aprovecha múltiples codificadores visuales congelados para crear una representación unificada de un video, proporcionando al VideoLLM un conjunto completo de conocimientos visuales especializados.
Alinear espacial y temporalmente las características de cada codificador nos permite abordar una gama más amplia de preguntas de comprensión de video abiertas y de opción múltiple, superando a trabajos previos líderes en el estado del arte. MERV tiene una precisión hasta un 3.7% mejor que Video-LLaVA en las pruebas estándar de comprensión de video, y también obtiene una puntuación mejor en Video-ChatGPT. Mejoramos además a SeViLA, el anterior líder en precisión de Pruebas de Percepción sin entrenamiento previo, en un 2.2%. MERV introduce un número mínimo de parámetros adicionales y se entrena más rápido que los métodos equivalentes de un solo codificador, al mismo tiempo que paraleliza el procesamiento visual. Finalmente, proporcionamos evidencia cualitativa de que MERV captura con éxito conocimiento de dominio de cada uno de sus codificadores. Nuestros resultados ofrecen direcciones prometedoras en la utilización de múltiples codificadores visuales para una comprensión completa de videos.
English
The recent advent of Large Language Models (LLMs) has ushered sophisticated
reasoning capabilities into the realm of video through Video Large Language
Models (VideoLLMs). However, VideoLLMs currently rely on a single vision
encoder for all of their visual processing, which limits the amount and type of
visual information that can be conveyed to the LLM. Our method, MERV,
Multi-Encoder Representation of Videos, instead leverages multiple frozen
visual encoders to create a unified representation of a video, providing the
VideoLLM with a comprehensive set of specialized visual knowledge.
Spatio-temporally aligning the features from each encoder allows us to tackle a
wider range of open-ended and multiple-choice video understanding questions and
outperform prior state-of-the-art works. MERV is up to 3.7% better in accuracy
than Video-LLaVA across the standard suite video understanding benchmarks,
while also having a better Video-ChatGPT score. We also improve upon SeViLA,
the previous best on zero-shot Perception Test accuracy, by 2.2%. MERV
introduces minimal extra parameters and trains faster than equivalent
single-encoder methods while parallelizing the visual processing. Finally, we
provide qualitative evidence that MERV successfully captures domain knowledge
from each of its encoders. Our results offer promising directions in utilizing
multiple vision encoders for comprehensive video understanding.Summary
AI-Generated Summary