ChatPaper.aiChatPaper

Florenz: Leis de Escalonamento para Generalização Sistemática em Modelos de Visão e Linguagem

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
Autores: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

Resumo

A transferência cross-lingual permite que modelos visão-linguagem (VLMs) realizem tarefas visuais em vários idiomas com dados de treinamento em apenas um idioma. As abordagens atuais dependem de grandes modelos de linguagem multilíngues pré-treinados. No entanto, eles enfrentam a maldição da multilinguidade, sacrificando o desempenho em tarefas subsequentes em prol de capacidades multilíngues, lutando com ambiguidades lexicais e ficando aquém dos avanços recentes. Neste trabalho, estudamos as leis de escalonamento da generalização sistemática com VLMs monolíngues para tarefas multilíngues, focando no impacto do tamanho do modelo e das amostras de treinamento vistas. Propomos Florenz, um VLM codificador-decodificador monolíngue com 0,4B a 11,2B de parâmetros que combina o VLM pré-treinado Florence-2 e o modelo de linguagem grande Gemma-2. Florenz é treinado com diferentes orçamentos de computação em um conjunto de dados sintético que apresenta cobertura linguística intencionalmente incompleta para legendagem de imagens, testando assim a generalização a partir da tarefa de tradução totalmente coberta. Mostramos que não apenas o aprendizado indireto de pares tarefa-idioma não vistos segue uma lei de escalonamento, mas também que, com nosso pipeline de geração de dados e a família de modelos Florenz proposta, habilidades de legendagem de imagens podem emergir em um idioma específico, mesmo quando apenas dados para a tarefa de tradução estão disponíveis. O ajuste fino em uma mistura de conjuntos de dados subsequentes resulta em desempenho competitivo e demonstra tendências promissoras de escalonamento em tradução multimodal (Multi30K, CoMMuTE), desambiguação lexical (CoMMuTE) e legendagem de imagens (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

Summary

AI-Generated Summary

PDF72March 19, 2025