MIT-10M : un corpus parallèle à grande échelle de traduction d'images multilingues
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation
December 10, 2024
Auteurs: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI
Résumé
La Traduction d'Images (TI) détient un immense potentiel dans divers domaines, permettant la traduction du contenu textuel présent dans les images vers différentes langues. Cependant, les ensembles de données existants souffrent souvent de limitations en termes d'échelle, de diversité et de qualité, entravant le développement et l'évaluation des modèles de TI. Pour résoudre ce problème, nous présentons MIT-10M, un corpus parallèle à grande échelle de traduction d'images multilingues comprenant plus de 10 millions de paires image-texte issues de données du monde réel, qui ont fait l'objet d'un nettoyage approfondi des données et d'une validation de traduction multilingue. Il contient 840 000 images de trois tailles, 28 catégories, tâches avec trois niveaux de difficulté et 14 paires image-texte de langues, ce qui constitue une amélioration considérable par rapport aux ensembles de données existants. Nous menons des expériences approfondies pour évaluer et entraîner des modèles sur MIT-10M. Les résultats expérimentaux indiquent clairement que notre ensemble de données présente une adaptabilité supérieure lorsqu'il s'agit d'évaluer les performances des modèles pour relever des tâches de traduction d'images complexes et difficiles dans le monde réel. De plus, les performances du modèle affiné avec MIT-10M ont triplé par rapport au modèle de référence, confirmant ainsi davantage sa supériorité.
English
Image Translation (IT) holds immense potential across diverse domains,
enabling the translation of textual content within images into various
languages. However, existing datasets often suffer from limitations in scale,
diversity, and quality, hindering the development and evaluation of IT models.
To address this issue, we introduce MIT-10M, a large-scale parallel corpus of
multilingual image translation with over 10M image-text pairs derived from
real-world data, which has undergone extensive data cleaning and multilingual
translation validation. It contains 840K images in three sizes, 28 categories,
tasks with three levels of difficulty and 14 languages image-text pairs, which
is a considerable improvement on existing datasets. We conduct extensive
experiments to evaluate and train models on MIT-10M. The experimental results
clearly indicate that our dataset has higher adaptability when it comes to
evaluating the performance of the models in tackling challenging and complex
image translation tasks in the real world. Moreover, the performance of the
model fine-tuned with MIT-10M has tripled compared to the baseline model,
further confirming its superiority.Summary
AI-Generated Summary