Mejora de la Comprensión Multimediática mediante Escalado de Tokens Delimitadores

Resumen

Los Grandes Modelos de Visión y Lenguaje (LVLM) logran un rendimiento sólido en tareas de imagen única, pero su desempeño disminuye cuando se proporcionan múltiples imágenes como entrada. Una razón principal es la fuga de información entre imágenes, donde el modelo lucha por distinguir la información a través de diferentes imágenes. Los LVLM existentes ya emplean tokens delimitadores para marcar el inicio y el final de cada imagen; sin embargo, nuestro análisis revela que estos tokens no logran bloquear efectivamente la fuga de información entre imágenes. Para mejorar su eficacia, proponemos un método que escala los estados ocultos de los tokens delimitadores. Esto mejora la capacidad del modelo para preservar información específica de cada imagen al reforzar la interacción intra-imagen y limitar las interacciones no deseadas entre imágenes. En consecuencia, el modelo puede distinguir mejor entre las imágenes y razonar sobre ellas con mayor precisión. Los experimentos muestran mejoras en el rendimiento en benchmarks de múltiples imágenes como Mantis, MuirBench, MIRB y QBench2. Evaluamos además nuestro método en tareas de solo texto que requieren una distinción clara. El método mejora el rendimiento en benchmarks de comprensión de múltiples documentos y múltiples tablas, incluyendo TQABench, MultiNews y WCEP-10. Cabe destacar que nuestro método no requiere costos adicionales de entrenamiento o inferencia.

English

Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.