ChatPaper.aiChatPaper

Florenz: Законы масштабирования для систематической обобщаемости в моделях "визуальный язык"

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
Авторы: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

Аннотация

Кросс-лингвальный перенос позволяет моделям, объединяющим зрение и язык (VLMs), выполнять задачи, связанные с обработкой изображений, на различных языках, используя обучающие данные только на одном языке. Современные подходы опираются на крупные предобученные многоязычные языковые модели. Однако они сталкиваются с "проклятием многоязычности", жертвуя производительностью на целевых задачах ради многоязычных возможностей, испытывают трудности с лексической неоднозначностью и отстают от последних достижений. В данной работе мы исследуем законы масштабирования систематической обобщаемости с использованием одноязычных VLMs для многоязычных задач, уделяя особое внимание влиянию размера модели и количества доступных обучающих данных. Мы предлагаем Florenz — одноязычную VLM с архитектурой "кодировщик-декодировщик" и числом параметров от 0,4 до 11,2 миллиардов, которая объединяет предобученную VLM Florence-2 и крупную языковую модель Gemma-2. Florenz обучается с различными вычислительными бюджетами на синтетическом наборе данных, который характеризуется намеренно неполным языковым охватом для задачи генерации подписей к изображениям, что позволяет тестировать обобщение на основе полностью охваченной задачи перевода. Мы показываем, что не только косвенное изучение неизвестных пар "задача-язык" подчиняется закону масштабирования, но и что с помощью нашего конвейера генерации данных и предложенного семейства моделей Florenz способность к генерации подписей к изображениям может возникать на конкретном языке, даже если доступны данные только для задачи перевода. Тонкая настройка на смеси целевых наборов данных демонстрирует конкурентоспособную производительность и многообещающие тенденции масштабирования в задачах мультимодального машинного перевода (Multi30K, CoMMuTE), лексической дизъюнкции (CoMMuTE) и генерации подписей к изображениям (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

Summary

AI-Generated Summary

PDF72March 19, 2025