ChatPaper.aiChatPaper

MIT-10M: Een grootschalig parallel corpus van multilinguale beeldvertaling

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

December 10, 2024
Auteurs: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI

Samenvatting

Beeldvertaling (IT) heeft enorm potentieel in diverse domeinen, doordat het de vertaling van tekstuele inhoud binnen afbeeldingen naar verschillende talen mogelijk maakt. Bestaande datasets kampen echter vaak met beperkingen op het gebied van schaal, diversiteit en kwaliteit, wat de ontwikkeling en evaluatie van IT-modellen belemmert. Om dit probleem aan te pakken, introduceren we MIT-10M, een grootschalig parallel corpus van meertalige beeldvertaling met meer dan 10 miljoen afbeelding-tekst paren afkomstig van real-world data, die uitgebreide datareiniging en meertalige vertalingsvalidatie hebben ondergaan. Het bevat 840.000 afbeeldingen in drie formaten, 28 categorieën, taken met drie moeilijkheidsniveaus en 14 talen afbeelding-tekst paren, wat een aanzienlijke verbetering is ten opzichte van bestaande datasets. We voeren uitgebreide experimenten uit om modellen te evalueren en trainen op MIT-10M. De experimentele resultaten geven duidelijk aan dat ons dataset een hogere aanpasbaarheid heeft als het gaat om het evalueren van de prestaties van de modellen bij het aanpakken van uitdagende en complexe beeldvertalingstaken in de echte wereld. Bovendien is de prestatie van het model dat is verfijnd met MIT-10M verdrievoudigd in vergelijking met het basismodel, wat zijn superioriteit verder bevestigt.
English
Image Translation (IT) holds immense potential across diverse domains, enabling the translation of textual content within images into various languages. However, existing datasets often suffer from limitations in scale, diversity, and quality, hindering the development and evaluation of IT models. To address this issue, we introduce MIT-10M, a large-scale parallel corpus of multilingual image translation with over 10M image-text pairs derived from real-world data, which has undergone extensive data cleaning and multilingual translation validation. It contains 840K images in three sizes, 28 categories, tasks with three levels of difficulty and 14 languages image-text pairs, which is a considerable improvement on existing datasets. We conduct extensive experiments to evaluate and train models on MIT-10M. The experimental results clearly indicate that our dataset has higher adaptability when it comes to evaluating the performance of the models in tackling challenging and complex image translation tasks in the real world. Moreover, the performance of the model fine-tuned with MIT-10M has tripled compared to the baseline model, further confirming its superiority.
PDF52December 12, 2024