ChatPaper.aiChatPaper

MIT-10M: Большой параллельный корпус многоязычного перевода изображений

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

December 10, 2024
Авторы: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI

Аннотация

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержимое на изображениях на различные языки. Однако существующие наборы данных часто страдают от ограничений в масштабе, разнообразии и качестве, что затрудняет разработку и оценку моделей IT. Для решения этой проблемы мы представляем MIT-10M, крупный параллельный корпус мультиязычного перевода изображений с более чем 10 млн пар изображений и текста, полученных из реальных данных, которые прошли обширную очистку данных и проверку мультиязычного перевода. Он содержит 840 тыс. изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 пар изображений и текста на разных языках, что является значительным улучшением по сравнению с существующими наборами данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает более высокой адаптивностью при оценке производительности моделей в решении сложных и комплексных задач перевода изображений в реальном мире. Более того, производительность модели, донастроенной с использованием MIT-10M, увеличилась втрое по сравнению с базовой моделью, дополнительно подтверждая ее превосходство.
English
Image Translation (IT) holds immense potential across diverse domains, enabling the translation of textual content within images into various languages. However, existing datasets often suffer from limitations in scale, diversity, and quality, hindering the development and evaluation of IT models. To address this issue, we introduce MIT-10M, a large-scale parallel corpus of multilingual image translation with over 10M image-text pairs derived from real-world data, which has undergone extensive data cleaning and multilingual translation validation. It contains 840K images in three sizes, 28 categories, tasks with three levels of difficulty and 14 languages image-text pairs, which is a considerable improvement on existing datasets. We conduct extensive experiments to evaluate and train models on MIT-10M. The experimental results clearly indicate that our dataset has higher adaptability when it comes to evaluating the performance of the models in tackling challenging and complex image translation tasks in the real world. Moreover, the performance of the model fine-tuned with MIT-10M has tripled compared to the baseline model, further confirming its superiority.

Summary

AI-Generated Summary

PDF52December 12, 2024