ChatPaper.aiChatPaper

Centurio : Sur les moteurs de la capacité multilingue des grands modèles de vision-langage

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

January 9, 2025
Auteurs: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI

Résumé

La plupart des Grands Modèles Vision-Texte (LVLM) actuels sont principalement entraînés sur des données en anglais, ce qui les rend difficiles à comprendre les entrées dans d'autres langues et à générer des résultats dans la langue cible souhaitée. Les efforts existants pour atténuer ces problèmes consistent à ajouter des données d'entraînement multilingues, mais le font de manière largement ad hoc, sans avoir une vision claire de comment différents mélanges d'entraînement influencent les performances pour différents groupes de langues. Dans ce travail, nous présentons une enquête approfondie sur les stratégies d'entraînement pour les LVLM massivement multilingues. Tout d'abord, nous menons une série d'expériences à plusieurs étapes couvrant 13 tâches vision-texte et 43 langues, examinant systématiquement : (1) le nombre de langues d'entraînement pouvant être inclus sans dégrader les performances en anglais, (2) les distributions optimales de langues pour la pré-entraînement ainsi que (3) les données de réglage des instructions. De plus, nous (4) étudions comment améliorer la compréhension multilingue de texte dans des images, et introduisons un nouvel référentiel pour cette tâche. À notre grande surprise, notre analyse révèle que l'on peut (i) inclure jusqu'à 100 langues d'entraînement simultanément (ii) avec aussi peu que 25 à 50\% de données non anglaises, pour améliorer considérablement les performances multilingues tout en conservant de solides performances en anglais. Nous constatons également que (iii) l'inclusion de données OCR non anglaises dans la pré-entraînement et le réglage des instructions est primordiale pour améliorer la compréhension multilingue de texte dans des images. Enfin, nous combinons toutes nos découvertes et entraînons Centurio, un LVLM à 100 langues, offrant des performances de pointe dans une évaluation couvrant 14 tâches et 56 langues.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly on English data, which makes them struggle to understand non-English input and fail to generate output in the desired target language. Existing efforts mitigate these issues by adding multilingual training data, but do so in a largely ad-hoc manner, lacking insight into how different training mixes tip the scale for different groups of languages. In this work, we present a comprehensive investigation into the training strategies for massively multilingual LVLMs. First, we conduct a series of multi-stage experiments spanning 13 downstream vision-language tasks and 43 languages, systematically examining: (1) the number of training languages that can be included without degrading English performance and (2) optimal language distributions of pre-training as well as (3) instruction-tuning data. Further, we (4) investigate how to improve multilingual text-in-image understanding, and introduce a new benchmark for the task. Surprisingly, our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50\% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding. Finally, we put all our findings together and train Centurio, a 100-language LVLM, offering state-of-the-art performance in an evaluation covering 14 tasks and 56 languages.

Summary

AI-Generated Summary

PDF203January 10, 2025