ChatPaper.aiChatPaper

MIT-10M: 다국어 이미지 번역의 대규모 병렬 말뭉치

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

December 10, 2024
저자: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI

초록

이미지 번역 (IT)은 다양한 영역에서 엄청난 잠재력을 지니고 있으며, 이미지 내 텍스트 콘텐츠를 다양한 언어로 번역하는 것을 가능케 합니다. 그러나 기존 데이터셋은 종종 규모, 다양성, 품질 면에서 한계를 가지고 있어 IT 모델의 개발과 평가를 방해합니다. 이 문제를 해결하기 위해 우리는 MIT-10M을 소개합니다. 이는 실제 데이터에서 유래된 10백만 개 이상의 이미지-텍스트 쌍을 포함한 대규모 병렬 말뭉치로, 철저한 데이터 정제와 다국어 번역 유효성 검사를 거쳤습니다. 이는 기존 데이터셋에 비해 상당한 향상이 있으며, 세 가지 크기의 840,000개 이미지, 28가지 카테고리, 난이도 세 가지 수준의 작업, 14개 언어 이미지-텍스트 쌍을 포함하고 있습니다. 우리는 MIT-10M에서 모델을 평가하고 훈련하기 위해 광범위한 실험을 수행했습니다. 실험 결과는 우리 데이터셋이 어려운 복잡한 이미지 번역 작업을 해결하는 모델의 성능을 평가할 때 높은 적응성을 보여준다는 것을 명백히 보여줍니다. 게다가, MIT-10M으로 세밀하게 조정된 모델의 성능은 기준 모델 대비 세 배 향상되었으며, 이는 그 우수성을 더욱 확신하는 결과입니다.
English
Image Translation (IT) holds immense potential across diverse domains, enabling the translation of textual content within images into various languages. However, existing datasets often suffer from limitations in scale, diversity, and quality, hindering the development and evaluation of IT models. To address this issue, we introduce MIT-10M, a large-scale parallel corpus of multilingual image translation with over 10M image-text pairs derived from real-world data, which has undergone extensive data cleaning and multilingual translation validation. It contains 840K images in three sizes, 28 categories, tasks with three levels of difficulty and 14 languages image-text pairs, which is a considerable improvement on existing datasets. We conduct extensive experiments to evaluate and train models on MIT-10M. The experimental results clearly indicate that our dataset has higher adaptability when it comes to evaluating the performance of the models in tackling challenging and complex image translation tasks in the real world. Moreover, the performance of the model fine-tuned with MIT-10M has tripled compared to the baseline model, further confirming its superiority.

Summary

AI-Generated Summary

PDF52December 12, 2024