ChatPaper.aiChatPaper

Florenz: 視覚-言語モデルにおける体系的な汎化のためのスケーリング則

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
著者: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

要旨

クロスリンガル転移により、ビジョン言語モデル(VLM)は、1つの言語のトレーニングデータのみで、さまざまな言語のビジョンタスクを実行できるようになります。現在のアプローチは、大規模な事前学習済み多言語言語モデルに依存しています。しかし、これらのモデルは多言語性の呪いに直面し、多言語能力のために下流タスクの性能を犠牲にし、語彙の曖昧性に苦戦し、最近の進歩に遅れをとっています。本研究では、単言語VLMを用いた多言語タスクにおける体系的な一般化のスケーリング則を調査し、モデルサイズと見たトレーニングサンプルの影響に焦点を当てます。我々は、事前学習済みVLM Florence-2と大規模言語モデルGemma-2を組み合わせた、0.4Bから11.2Bパラメータを持つ単言語エンコーダーデコーダーVLMであるFlorenzを提案します。Florenzは、意図的に不完全な言語カバレッジを特徴とする合成データセットで、さまざまな計算予算でトレーニングされ、完全にカバーされた翻訳タスクからの一般化をテストします。我々は、見えないタスク言語ペアを間接的に学習することがスケーリング則に従うだけでなく、我々のデータ生成パイプラインと提案されたFlorenzモデルファミリーにより、翻訳タスクのデータのみが利用可能な場合でも、特定の言語での画像キャプション能力が出現することを示します。下流データセットの混合でのファインチューニングにより、競争力のある性能が得られ、マルチモーダル機械翻訳(Multi30K、CoMMuTE)、語彙の曖昧性解消(CoMMuTE)、および画像キャプション(Multi30K、XM3600、COCO Karpathy)における有望なスケーリングトレンドが示されます。
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

Summary

AI-Generated Summary

PDF72March 19, 2025