ChatPaper.aiChatPaper

MIT-10M : un corpus parallèle à grande échelle de traduction d'images multilingues

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

December 10, 2024
Auteurs: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI

Résumé

La Traduction d'Images (TI) détient un immense potentiel dans divers domaines, permettant la traduction du contenu textuel présent dans les images vers différentes langues. Cependant, les ensembles de données existants souffrent souvent de limitations en termes d'échelle, de diversité et de qualité, entravant le développement et l'évaluation des modèles de TI. Pour résoudre ce problème, nous présentons MIT-10M, un corpus parallèle à grande échelle de traduction d'images multilingues comprenant plus de 10 millions de paires image-texte issues de données du monde réel, qui ont fait l'objet d'un nettoyage approfondi des données et d'une validation de traduction multilingue. Il contient 840 000 images de trois tailles, 28 catégories, tâches avec trois niveaux de difficulté et 14 paires image-texte de langues, ce qui constitue une amélioration considérable par rapport aux ensembles de données existants. Nous menons des expériences approfondies pour évaluer et entraîner des modèles sur MIT-10M. Les résultats expérimentaux indiquent clairement que notre ensemble de données présente une adaptabilité supérieure lorsqu'il s'agit d'évaluer les performances des modèles pour relever des tâches de traduction d'images complexes et difficiles dans le monde réel. De plus, les performances du modèle affiné avec MIT-10M ont triplé par rapport au modèle de référence, confirmant ainsi davantage sa supériorité.
English
Image Translation (IT) holds immense potential across diverse domains, enabling the translation of textual content within images into various languages. However, existing datasets often suffer from limitations in scale, diversity, and quality, hindering the development and evaluation of IT models. To address this issue, we introduce MIT-10M, a large-scale parallel corpus of multilingual image translation with over 10M image-text pairs derived from real-world data, which has undergone extensive data cleaning and multilingual translation validation. It contains 840K images in three sizes, 28 categories, tasks with three levels of difficulty and 14 languages image-text pairs, which is a considerable improvement on existing datasets. We conduct extensive experiments to evaluate and train models on MIT-10M. The experimental results clearly indicate that our dataset has higher adaptability when it comes to evaluating the performance of the models in tackling challenging and complex image translation tasks in the real world. Moreover, the performance of the model fine-tuned with MIT-10M has tripled compared to the baseline model, further confirming its superiority.

Summary

AI-Generated Summary

PDF52December 12, 2024