Florenz: Leyes de Escalado para la Generalización Sistemática en Modelos de Visión-Lenguaje
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
March 12, 2025
Autores: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI
Resumen
La transferencia interlingüística permite que los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) realicen tareas de visión en varios idiomas utilizando datos de entrenamiento en un solo idioma. Los enfoques actuales dependen de grandes modelos de lenguaje multilingües preentrenados. Sin embargo, enfrentan la maldición de la multilingüidad, sacrificando el rendimiento en tareas específicas por capacidades multilingües, lidiando con ambigüedades léxicas y quedándose atrás respecto a avances recientes. En este trabajo, estudiamos las leyes de escalamiento de la generalización sistemática con VLMs monolingües para tareas multilingües, centrándonos en el impacto del tamaño del modelo y las muestras de entrenamiento vistas. Proponemos Florenz, un VLM codificador-decodificador monolingüe con parámetros que van desde 0.4B hasta 11.2B, que combina el VLM preentrenado Florence-2 y el modelo de lenguaje grande Gemma-2. Florenz se entrena con diferentes presupuestos computacionales en un conjunto de datos sintético que presenta una cobertura lingüística intencionalmente incompleta para la generación de descripciones de imágenes, probando así la generalización a partir de la tarea de traducción completamente cubierta. Demostramos que no solo el aprendizaje indirecto de pares tarea-idioma no vistos sigue una ley de escalamiento, sino que, con nuestra pipeline de generación de datos y la familia de modelos Florenz propuesta, las capacidades de generación de descripciones de imágenes pueden surgir en un idioma específico incluso cuando solo se dispone de datos para la tarea de traducción. El ajuste fino en una mezcla de conjuntos de datos de tareas específicas produce un rendimiento competitivo y muestra tendencias prometedoras de escalamiento en traducción multimodal (Multi30K, CoMMuTE), desambiguación léxica (CoMMuTE) y generación de descripciones de imágenes (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform
vision tasks in various languages with training data only in one language.
Current approaches rely on large pre-trained multilingual language models.
However, they face the curse of multilinguality, sacrificing downstream task
performance for multilingual capabilities, struggling with lexical ambiguities,
and falling behind recent advances. In this work, we study the scaling laws of
systematic generalization with monolingual VLMs for multilingual tasks,
focusing on the impact of model size and seen training samples. We propose
Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters
combining the pre-trained VLM Florence-2 and the large language model Gemma-2.
Florenz is trained with varying compute budgets on a synthetic dataset that
features intentionally incomplete language coverage for image captioning, thus,
testing generalization from the fully covered translation task. We show that
not only does indirectly learning unseen task-language pairs adhere to a
scaling law, but also that with our data generation pipeline and the proposed
Florenz model family, image captioning abilities can emerge in a specific
language even when only data for the translation task is available. Fine-tuning
on a mix of downstream datasets yields competitive performance and demonstrates
promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE),
lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO
Karpathy).Summary
AI-Generated Summary