MIT-10M: Большой параллельный корпус многоязычного перевода изображений
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation
December 10, 2024
Авторы: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI
Аннотация
Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержимое на изображениях на различные языки. Однако существующие наборы данных часто страдают от ограничений в масштабе, разнообразии и качестве, что затрудняет разработку и оценку моделей IT. Для решения этой проблемы мы представляем MIT-10M, крупный параллельный корпус мультиязычного перевода изображений с более чем 10 млн пар изображений и текста, полученных из реальных данных, которые прошли обширную очистку данных и проверку мультиязычного перевода. Он содержит 840 тыс. изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 пар изображений и текста на разных языках, что является значительным улучшением по сравнению с существующими наборами данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает более высокой адаптивностью при оценке производительности моделей в решении сложных и комплексных задач перевода изображений в реальном мире. Более того, производительность модели, донастроенной с использованием MIT-10M, увеличилась втрое по сравнению с базовой моделью, дополнительно подтверждая ее превосходство.
English
Image Translation (IT) holds immense potential across diverse domains,
enabling the translation of textual content within images into various
languages. However, existing datasets often suffer from limitations in scale,
diversity, and quality, hindering the development and evaluation of IT models.
To address this issue, we introduce MIT-10M, a large-scale parallel corpus of
multilingual image translation with over 10M image-text pairs derived from
real-world data, which has undergone extensive data cleaning and multilingual
translation validation. It contains 840K images in three sizes, 28 categories,
tasks with three levels of difficulty and 14 languages image-text pairs, which
is a considerable improvement on existing datasets. We conduct extensive
experiments to evaluate and train models on MIT-10M. The experimental results
clearly indicate that our dataset has higher adaptability when it comes to
evaluating the performance of the models in tackling challenging and complex
image translation tasks in the real world. Moreover, the performance of the
model fine-tuned with MIT-10M has tripled compared to the baseline model,
further confirming its superiority.Summary
AI-Generated Summary