Florenz : Lois d'échelle pour la généralisation systématique dans les modèles vision-langage
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
March 12, 2025
Auteurs: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI
Résumé
Le transfert interlangue permet aux modèles vision-langage (VLMs) d'exécuter des tâches visuelles dans diverses langues avec des données d'entraînement dans une seule langue. Les approches actuelles s'appuient sur de grands modèles de langage multilingues pré-entraînés. Cependant, elles sont confrontées à la malédiction de la multilingüité, sacrifiant les performances en aval pour les capacités multilingues, luttant contre les ambiguïtés lexicales et restant à la traîne des avancées récentes. Dans ce travail, nous étudions les lois d'échelle de la généralisation systématique avec des VLMs monolingues pour des tâches multilingues, en nous concentrant sur l'impact de la taille du modèle et des échantillons d'entraînement observés. Nous proposons Florenz, un VLM encodeur-décodeur monolingue avec des paramètres allant de 0,4 à 11,2 milliards, combinant le VLM pré-entraîné Florence-2 et le grand modèle de langage Gemma-2. Florenz est entraîné avec différents budgets de calcul sur un ensemble de données synthétiques présentant une couverture linguistique intentionnellement incomplète pour la génération de légendes d'images, testant ainsi la généralisation à partir de la tâche de traduction entièrement couverte. Nous montrons que non seulement l'apprentissage indirect de paires tâche-langue non vues suit une loi d'échelle, mais aussi qu'avec notre pipeline de génération de données et la famille de modèles Florenz proposée, les capacités de génération de légendes d'images peuvent émerger dans une langue spécifique même lorsque seules les données pour la tâche de traduction sont disponibles. Le fine-tuning sur un mélange de jeux de données en aval donne des performances compétitives et démontre des tendances d'échelle prometteuses en traduction multimodale (Multi30K, CoMMuTE), en désambiguïsation lexicale (CoMMuTE) et en génération de légendes d'images (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform
vision tasks in various languages with training data only in one language.
Current approaches rely on large pre-trained multilingual language models.
However, they face the curse of multilinguality, sacrificing downstream task
performance for multilingual capabilities, struggling with lexical ambiguities,
and falling behind recent advances. In this work, we study the scaling laws of
systematic generalization with monolingual VLMs for multilingual tasks,
focusing on the impact of model size and seen training samples. We propose
Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters
combining the pre-trained VLM Florence-2 and the large language model Gemma-2.
Florenz is trained with varying compute budgets on a synthetic dataset that
features intentionally incomplete language coverage for image captioning, thus,
testing generalization from the fully covered translation task. We show that
not only does indirectly learning unseen task-language pairs adhere to a
scaling law, but also that with our data generation pipeline and the proposed
Florenz model family, image captioning abilities can emerge in a specific
language even when only data for the translation task is available. Fine-tuning
on a mix of downstream datasets yields competitive performance and demonstrates
promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE),
lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO
Karpathy).Summary
AI-Generated Summary