ChatPaper.aiChatPaper

Centurio: Over de factoren die de meertalige vaardigheid van grote visie-taalmodellen beïnvloeden

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

January 9, 2025
Auteurs: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI

Samenvatting

De meeste Grote Visie-Taalmodellen (LVLM's) tot nu toe worden voornamelijk getraind op Engelse gegevens, wat hen moeite geeft om niet-Engelse invoer te begrijpen en om uitvoer te genereren in de gewenste doeltaal. Bestaande inspanningen om deze problemen te verminderen, voegen meertalige trainingsgegevens toe, maar doen dit op een grotendeels ad-hoc manier, zonder inzicht te bieden in hoe verschillende trainingsmixen het evenwicht kunnen verstoren voor verschillende taalgroepen. In dit werk presenteren we een uitgebreid onderzoek naar de trainingsstrategieën voor grootschalige meertalige LVLM's. Allereerst voeren we een reeks meertraps experimenten uit die 13 downstream visie-taaltaken en 43 talen omvatten, waarbij systematisch wordt onderzocht: (1) het aantal trainings-talen dat kan worden opgenomen zonder de prestaties in het Engels te verslechteren en (2) optimale taalverdelingen voor pre-training, evenals (3) instructie-afstemmingsgegevens. Verder onderzoeken we (4) hoe we de meertalige tekst-in-beeldbegrip kunnen verbeteren en introduceren we een nieuwe benchmark voor de taak. Tot onze verrassing onthult onze analyse dat men (i) zoveel als 100 trainings-talen tegelijk kan opnemen (ii) met slechts 25-50\% niet-Engelse gegevens, om de meertalige prestaties aanzienlijk te verbeteren terwijl sterke Engelse prestaties behouden blijven. We ontdekken verder dat (iii) het opnemen van niet-Engelse OCR-gegevens bij pre-training en instructie-afstemming van cruciaal belang is voor het verbeteren van het meertalige tekst-in-beeldbegrip. Ten slotte combineren we al onze bevindingen en trainen we Centurio, een 100-talig LVLM, dat state-of-the-art prestaties biedt in een evaluatie die 14 taken en 56 talen bestrijkt.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly on English data, which makes them struggle to understand non-English input and fail to generate output in the desired target language. Existing efforts mitigate these issues by adding multilingual training data, but do so in a largely ad-hoc manner, lacking insight into how different training mixes tip the scale for different groups of languages. In this work, we present a comprehensive investigation into the training strategies for massively multilingual LVLMs. First, we conduct a series of multi-stage experiments spanning 13 downstream vision-language tasks and 43 languages, systematically examining: (1) the number of training languages that can be included without degrading English performance and (2) optimal language distributions of pre-training as well as (3) instruction-tuning data. Further, we (4) investigate how to improve multilingual text-in-image understanding, and introduce a new benchmark for the task. Surprisingly, our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50\% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding. Finally, we put all our findings together and train Centurio, a 100-language LVLM, offering state-of-the-art performance in an evaluation covering 14 tasks and 56 languages.

Summary

AI-Generated Summary

PDF203January 10, 2025