Florenz: Schaalwetten voor Systematische Generalisatie in Visie-Taalmodellen
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
March 12, 2025
Auteurs: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI
Samenvatting
Cross-linguale transfer maakt het mogelijk voor vision-language modellen (VLMs) om visuele taken uit te voeren in verschillende talen met trainingsdata in slechts één taal. Huidige benaderingen vertrouwen op grote vooraf getrainde meertalige taalmodelen. Ze worden echter geconfronteerd met de vloek van meertaligheid, waarbij de prestaties op downstream taken worden opgeofferd voor meertalige capaciteiten, moeite hebben met lexicale ambiguïteiten en achterblijven bij recente ontwikkelingen. In dit werk bestuderen we de schaalwetten van systematische generalisatie met eentalige VLMs voor meertalige taken, waarbij we focussen op de impact van modelgrootte en geziene trainingsvoorbeelden. We stellen Florenz voor, een eentalig encoder-decoder VLM met 0,4B tot 11,2B parameters, dat het vooraf getrainde VLM Florence-2 combineert met het grote taalmodel Gemma-2. Florenz wordt getraind met verschillende rekenbudgetten op een synthetische dataset die bewust onvolledige taaldekking bevat voor beeldbeschrijving, waardoor generalisatie vanuit de volledig gedekte vertaaltaak wordt getest. We tonen aan dat niet alleen het indirect leren van onbekende taak-taalparen een schaalwet volgt, maar ook dat met onze datageneratiepijplijn en de voorgestelde Florenz-modelfamilie beeldbeschrijvingsvaardigheden kunnen ontstaan in een specifieke taal, zelfs wanneer alleen data voor de vertaaltaak beschikbaar is. Fine-tuning op een mix van downstream datasets levert competitieve prestaties op en toont veelbelovende schaaltrends in multimodale machinaal vertalen (Multi30K, CoMMuTE), lexicale disambiguatie (CoMMuTE) en beeldbeschrijving (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform
vision tasks in various languages with training data only in one language.
Current approaches rely on large pre-trained multilingual language models.
However, they face the curse of multilinguality, sacrificing downstream task
performance for multilingual capabilities, struggling with lexical ambiguities,
and falling behind recent advances. In this work, we study the scaling laws of
systematic generalization with monolingual VLMs for multilingual tasks,
focusing on the impact of model size and seen training samples. We propose
Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters
combining the pre-trained VLM Florence-2 and the large language model Gemma-2.
Florenz is trained with varying compute budgets on a synthetic dataset that
features intentionally incomplete language coverage for image captioning, thus,
testing generalization from the fully covered translation task. We show that
not only does indirectly learning unseen task-language pairs adhere to a
scaling law, but also that with our data generation pipeline and the proposed
Florenz model family, image captioning abilities can emerge in a specific
language even when only data for the translation task is available. Fine-tuning
on a mix of downstream datasets yields competitive performance and demonstrates
promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE),
lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO
Karpathy).Summary
AI-Generated Summary