Centurio: Über die Treiber der mehrsprachigen Fähigkeit großer Vision-Sprache-Modelle
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
Autoren: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
Zusammenfassung
Die meisten großen Modellen für Bild-Sprache (LVLMs) werden bisher hauptsächlich mit englischen Daten trainiert, was es ihnen schwer macht, nicht-englische Eingaben zu verstehen und Ausgaben in der gewünschten Zielsprache zu generieren. Bestehende Bemühungen mildern diese Probleme, indem sie mehrsprachige Trainingsdaten hinzufügen, tun dies jedoch weitgehend ad hoc, ohne Einblick darin zu haben, wie verschiedene Trainingsmischungen die Waage für verschiedene Sprachgruppen beeinflussen. In dieser Arbeit präsentieren wir eine umfassende Untersuchung der Trainingsstrategien für massiv mehrsprachige LVLMs. Zunächst führen wir eine Reihe von mehrstufigen Experimenten durch, die 13 nachgelagerte Bild-Sprache-Aufgaben und 43 Sprachen umfassen, und untersuchen systematisch: (1) die Anzahl der Trainingsprachen, die ohne Beeinträchtigung der Leistung in Englisch einbezogen werden können, und (2) optimale Sprachverteilungen des Vortrainings sowie (3) Anweisungsabstimmungsdaten. Darüber hinaus untersuchen wir (4), wie die mehrsprachige Text-in-Bild-Verarbeitung verbessert werden kann, und stellen einen neuen Benchmark für die Aufgabe vor. Überraschenderweise zeigt unsere Analyse, dass man (i) gleichzeitig bis zu 100 Trainingsprachen einbeziehen kann, (ii) mit so wenig wie 25-50\% nicht-englischen Daten, um die mehrsprachige Leistung erheblich zu verbessern, während die starke Leistung in Englisch beibehalten wird. Wir finden weiterhin heraus, dass (iii) das Einbeziehen von nicht-englischen OCR-Daten beim Vortraining und bei der Anweisungsabstimmung entscheidend ist, um die mehrsprachige Text-in-Bild-Verarbeitung zu verbessern. Schließlich fassen wir alle unsere Erkenntnisse zusammen und trainieren Centurio, ein 100-sprachiges LVLM, das eine Spitzenleistung in einer Bewertung von 14 Aufgaben und 56 Sprachen bietet.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary