ChatPaper.aiChatPaper

Florenz: Leggi di scala per la generalizzazione sistematica nei modelli visione-linguaggio

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
Autori: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

Abstract

Il trasferimento cross-linguale consente ai modelli visione-linguaggio (VLMs) di eseguire compiti visivi in varie lingue utilizzando dati di addestramento in una sola lingua. Gli approcci attuali si basano su grandi modelli linguistici multilingue pre-addestrati. Tuttavia, essi affrontano la maledizione della multilinguità, sacrificando le prestazioni nei task downstream per ottenere capacità multilingue, lottando con ambiguità lessicali e rimanendo indietro rispetto ai recenti progressi. In questo lavoro, studiamo le leggi di scalabilità della generalizzazione sistematica con VLMs monolingue per task multilingue, concentrandoci sull'impatto delle dimensioni del modello e dei campioni di addestramento visti. Proponiamo Florenz, un VLM encoder-decoder monolingue con parametri da 0,4B a 11,2B che combina il VLM pre-addestrato Florence-2 e il modello linguistico di grandi dimensioni Gemma-2. Florenz viene addestrato con budget computazionali variabili su un dataset sintetico che presenta una copertura linguistica intenzionalmente incompleta per la descrizione di immagini, testando così la generalizzazione dal task di traduzione completamente coperto. Mostriamo che non solo l'apprendimento indiretto di coppie task-lingua non viste segue una legge di scalabilità, ma anche che, con la nostra pipeline di generazione dati e la famiglia di modelli Florenz proposta, le capacità di descrizione di immagini possono emergere in una lingua specifica anche quando sono disponibili solo dati per il task di traduzione. Il fine-tuning su un mix di dataset downstream produce prestazioni competitive e dimostra tendenze promettenti di scalabilità nella traduzione multimodale (Multi30K, CoMMuTE), nella disambiguazione lessicale (CoMMuTE) e nella descrizione di immagini (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).
PDF72March 19, 2025