Florenz: Leggi di scala per la generalizzazione sistematica nei modelli visione-linguaggio
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
March 12, 2025
Autori: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI
Abstract
Il trasferimento cross-linguale consente ai modelli visione-linguaggio (VLMs) di eseguire compiti visivi in varie lingue utilizzando dati di addestramento in una sola lingua. Gli approcci attuali si basano su grandi modelli linguistici multilingue pre-addestrati. Tuttavia, essi affrontano la maledizione della multilinguità, sacrificando le prestazioni nei task downstream per ottenere capacità multilingue, lottando con ambiguità lessicali e rimanendo indietro rispetto ai recenti progressi. In questo lavoro, studiamo le leggi di scalabilità della generalizzazione sistematica con VLMs monolingue per task multilingue, concentrandoci sull'impatto delle dimensioni del modello e dei campioni di addestramento visti. Proponiamo Florenz, un VLM encoder-decoder monolingue con parametri da 0,4B a 11,2B che combina il VLM pre-addestrato Florence-2 e il modello linguistico di grandi dimensioni Gemma-2. Florenz viene addestrato con budget computazionali variabili su un dataset sintetico che presenta una copertura linguistica intenzionalmente incompleta per la descrizione di immagini, testando così la generalizzazione dal task di traduzione completamente coperto. Mostriamo che non solo l'apprendimento indiretto di coppie task-lingua non viste segue una legge di scalabilità, ma anche che, con la nostra pipeline di generazione dati e la famiglia di modelli Florenz proposta, le capacità di descrizione di immagini possono emergere in una lingua specifica anche quando sono disponibili solo dati per il task di traduzione. Il fine-tuning su un mix di dataset downstream produce prestazioni competitive e dimostra tendenze promettenti di scalabilità nella traduzione multimodale (Multi30K, CoMMuTE), nella disambiguazione lessicale (CoMMuTE) e nella descrizione di immagini (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform
vision tasks in various languages with training data only in one language.
Current approaches rely on large pre-trained multilingual language models.
However, they face the curse of multilinguality, sacrificing downstream task
performance for multilingual capabilities, struggling with lexical ambiguities,
and falling behind recent advances. In this work, we study the scaling laws of
systematic generalization with monolingual VLMs for multilingual tasks,
focusing on the impact of model size and seen training samples. We propose
Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters
combining the pre-trained VLM Florence-2 and the large language model Gemma-2.
Florenz is trained with varying compute budgets on a synthetic dataset that
features intentionally incomplete language coverage for image captioning, thus,
testing generalization from the fully covered translation task. We show that
not only does indirectly learning unseen task-language pairs adhere to a
scaling law, but also that with our data generation pipeline and the proposed
Florenz model family, image captioning abilities can emerge in a specific
language even when only data for the translation task is available. Fine-tuning
on a mix of downstream datasets yields competitive performance and demonstrates
promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE),
lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO
Karpathy).