Центурио: О водителях многоязычной способности крупной модели видео-языка.
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
January 9, 2025
Авторы: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
cs.AI
Аннотация
Большинство крупных моделей видео-языка (LVLM) на сегодняшний день обучаются в основном на английских данных, что затрудняет понимание ими неанглоязычных входных данных и приводит к невозможности генерации вывода на желаемом целевом языке. Существующие усилия по решению этих проблем включают добавление мультиязычных обучающих данных, однако это происходит в значительной степени спонтанно, лишенное понимания того, как различные комбинации обучающих данных влияют на разные группы языков. В данной работе мы представляем всестороннее исследование стратегий обучения для массово мультиязычных моделей видео-языка. Во-первых, мы проводим серию многоэтапных экспериментов, охватывающих 13 последующих задач видео-языка и 43 языка, систематически исследуя: (1) количество обучающих языков, которые можно включить без ухудшения производительности на английском языке, и (2) оптимальные языковые распределения для предварительного обучения, а также (3) данных настройки инструкций. Кроме того, мы (4) исследуем способы улучшения мультиязычного понимания текста в изображении и представляем новый показатель для этой задачи. Удивительно, наш анализ показывает, что можно (i) включить одновременно до 100 обучающих языков (ii) с использованием всего 25-50\% неанглоязычных данных, чтобы значительно улучшить мультиязычную производительность, сохраняя при этом сильную производительность на английском языке. Мы также обнаружили, что (iii) включение неанглоязычных данных OCR в предварительное обучение и настройку инструкций является ключевым для улучшения мультиязычного понимания текста в изображении. Наконец, мы объединяем все наши результаты и обучаем Centurio, многопредметную модель видео-языка на 100 языках, предлагая передовую производительность в оценке, охватывающей 14 задач и 56 языков.
English
Most Large Vision-Language Models (LVLMs) to date are trained predominantly
on English data, which makes them struggle to understand non-English input and
fail to generate output in the desired target language. Existing efforts
mitigate these issues by adding multilingual training data, but do so in a
largely ad-hoc manner, lacking insight into how different training mixes tip
the scale for different groups of languages. In this work, we present a
comprehensive investigation into the training strategies for massively
multilingual LVLMs. First, we conduct a series of multi-stage experiments
spanning 13 downstream vision-language tasks and 43 languages, systematically
examining: (1) the number of training languages that can be included without
degrading English performance and (2) optimal language distributions of
pre-training as well as (3) instruction-tuning data. Further, we (4)
investigate how to improve multilingual text-in-image understanding, and
introduce a new benchmark for the task. Surprisingly, our analysis reveals that
one can (i) include as many as 100 training languages simultaneously (ii) with
as little as 25-50\% of non-English data, to greatly improve multilingual
performance while retaining strong English performance. We further find that
(iii) including non-English OCR data in pre-training and instruction-tuning is
paramount for improving multilingual text-in-image understanding. Finally, we
put all our findings together and train Centurio, a 100-language LVLM, offering
state-of-the-art performance in an evaluation covering 14 tasks and 56
languages.Summary
AI-Generated Summary