MIT-10M: 大規模な並列コーパス、多言語画像翻訳
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation
December 10, 2024
著者: Bo Li, Shaolin Zhu, Lijie Wen
cs.AI
要旨
画像翻訳(IT)は、さまざまな領域で莫大な潜在能力を持ち、画像内のテキストコンテンツをさまざまな言語に翻訳することを可能にします。ただし、既存のデータセットはしばしば規模、多様性、品質の面で制約を抱えており、ITモデルの開発と評価を妨げています。この問題に対処するために、私たちはMIT-10Mを導入します。これは、実世界のデータから派生した1,000万以上の画像テキストペアを持つ大規模な多言語画像翻訳の並列コーパスであり、データの徹底的なクリーニングと多言語翻訳の検証を経ています。これには、3つのサイズの840,000枚の画像、28のカテゴリ、3つの難易度レベルのタスク、14言語の画像テキストペアが含まれており、既存のデータセットに比べてかなりの改善が見られます。MIT-10Mでモデルを評価しトレーニングするために幅広い実験を実施します。実験結果は明確に、当社のデータセットが、現実世界での難解で複雑な画像翻訳タスクに対するモデルのパフォーマンスを評価する際に、より高い適応性を持っていることを示しています。さらに、MIT-10Mでファインチューニングされたモデルのパフォーマンスは、ベースラインモデルと比較して3倍に向上しており、その優位性がさらに確認されています。
English
Image Translation (IT) holds immense potential across diverse domains,
enabling the translation of textual content within images into various
languages. However, existing datasets often suffer from limitations in scale,
diversity, and quality, hindering the development and evaluation of IT models.
To address this issue, we introduce MIT-10M, a large-scale parallel corpus of
multilingual image translation with over 10M image-text pairs derived from
real-world data, which has undergone extensive data cleaning and multilingual
translation validation. It contains 840K images in three sizes, 28 categories,
tasks with three levels of difficulty and 14 languages image-text pairs, which
is a considerable improvement on existing datasets. We conduct extensive
experiments to evaluate and train models on MIT-10M. The experimental results
clearly indicate that our dataset has higher adaptability when it comes to
evaluating the performance of the models in tackling challenging and complex
image translation tasks in the real world. Moreover, the performance of the
model fine-tuned with MIT-10M has tripled compared to the baseline model,
further confirming its superiority.Summary
AI-Generated Summary