MIT-10M: Een grootschalig parallel corpus van multilinguale beeldvertaling
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation
December 10, 2024
Auteurs: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI
Samenvatting
Beeldvertaling (IT) heeft enorm potentieel in diverse domeinen, doordat het de vertaling van tekstuele inhoud binnen afbeeldingen naar verschillende talen mogelijk maakt. Bestaande datasets kampen echter vaak met beperkingen op het gebied van schaal, diversiteit en kwaliteit, wat de ontwikkeling en evaluatie van IT-modellen belemmert. Om dit probleem aan te pakken, introduceren we MIT-10M, een grootschalig parallel corpus van meertalige beeldvertaling met meer dan 10 miljoen afbeelding-tekst paren afkomstig van real-world data, die uitgebreide datareiniging en meertalige vertalingsvalidatie hebben ondergaan. Het bevat 840.000 afbeeldingen in drie formaten, 28 categorieën, taken met drie moeilijkheidsniveaus en 14 talen afbeelding-tekst paren, wat een aanzienlijke verbetering is ten opzichte van bestaande datasets. We voeren uitgebreide experimenten uit om modellen te evalueren en trainen op MIT-10M. De experimentele resultaten geven duidelijk aan dat ons dataset een hogere aanpasbaarheid heeft als het gaat om het evalueren van de prestaties van de modellen bij het aanpakken van uitdagende en complexe beeldvertalingstaken in de echte wereld. Bovendien is de prestatie van het model dat is verfijnd met MIT-10M verdrievoudigd in vergelijking met het basismodel, wat zijn superioriteit verder bevestigt.
English
Image Translation (IT) holds immense potential across diverse domains,
enabling the translation of textual content within images into various
languages. However, existing datasets often suffer from limitations in scale,
diversity, and quality, hindering the development and evaluation of IT models.
To address this issue, we introduce MIT-10M, a large-scale parallel corpus of
multilingual image translation with over 10M image-text pairs derived from
real-world data, which has undergone extensive data cleaning and multilingual
translation validation. It contains 840K images in three sizes, 28 categories,
tasks with three levels of difficulty and 14 languages image-text pairs, which
is a considerable improvement on existing datasets. We conduct extensive
experiments to evaluate and train models on MIT-10M. The experimental results
clearly indicate that our dataset has higher adaptability when it comes to
evaluating the performance of the models in tackling challenging and complex
image translation tasks in the real world. Moreover, the performance of the
model fine-tuned with MIT-10M has tripled compared to the baseline model,
further confirming its superiority.