Centurio: Sobre los Factores que Influyen en la Habilidad Multilingüe de un Modelo Grande de Visión-Lenguaje
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
Autores: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
Resumen
La mayoría de los Modelos de Gran Escala Visión-Lenguaje (LVLMs, por sus siglas en inglés) hasta la fecha se entrenan principalmente con datos en inglés, lo que les dificulta entender entradas en otros idiomas y generar resultados en el idioma deseado. Los esfuerzos existentes para mitigar estos problemas añaden datos de entrenamiento multilingües, pero lo hacen de manera principalmente ad-hoc, careciendo de comprensión sobre cómo diferentes combinaciones de entrenamiento afectan a distintos grupos de idiomas. En este trabajo, presentamos una investigación exhaustiva sobre las estrategias de entrenamiento para LVLMs masivamente multilingües. En primer lugar, realizamos una serie de experimentos en múltiples etapas que abarcan 13 tareas de visión-lenguaje y 43 idiomas, examinando sistemáticamente: (1) el número de idiomas de entrenamiento que se pueden incluir sin degradar el rendimiento en inglés, (2) las distribuciones óptimas de idiomas para el pre-entrenamiento, así como (3) los datos de ajuste de instrucciones. Además, (4) investigamos cómo mejorar la comprensión multilingüe de texto en imágenes e introducimos un nuevo punto de referencia para la tarea. Sorprendentemente, nuestro análisis revela que se pueden (i) incluir hasta 100 idiomas de entrenamiento simultáneamente (ii) con tan solo un 25-50\% de datos no ingleses, para mejorar significativamente el rendimiento multilingüe manteniendo un sólido rendimiento en inglés. También descubrimos que (iii) incluir datos de OCR no ingleses en el pre-entrenamiento y en el ajuste de instrucciones es fundamental para mejorar la comprensión multilingüe de texto en imágenes. Finalmente, unimos todos nuestros hallazgos y entrenamos a Centurio, un LVLM de 100 idiomas, que ofrece un rendimiento de vanguardia en una evaluación que abarca 14 tareas y 56 idiomas.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary