ChatPaper.aiChatPaper

Florenz: 시각-언어 모델의 체계적 일반화를 위한 스케일링 법칙

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
저자: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

초록

크로스-링구얼 전이(cross-lingual transfer)는 비전-언어 모델(VLMs)이 단일 언어로만 훈련 데이터를 사용하여 다양한 언어에서 비전 작업을 수행할 수 있게 합니다. 현재의 접근 방식은 대규모 사전 훈련된 다국어 언어 모델에 의존합니다. 그러나 이러한 방식은 다국어 능력을 위해 다운스트림 작업 성능을 희생하는 '다국어성의 저주(curse of multilinguality)'에 직면하며, 어휘적 모호성에 어려움을 겪고 최신 기술 발전에 뒤처지는 문제가 있습니다. 본 연구에서는 단일 언어 VLM을 사용한 다국어 작업에 대한 체계적 일반화의 스케일링 법칙을 연구하며, 모델 크기와 훈련 샘플의 영향에 초점을 맞춥니다. 우리는 사전 훈련된 VLM Florence-2와 대형 언어 모델 Gemma-2를 결합한 0.4B에서 11.2B 파라미터를 가진 단일 언어 인코더-디코더 VLM인 Florenz를 제안합니다. Florenz는 의도적으로 불완전한 언어 커버리지를 특징으로 하는 합성 데이터셋에서 다양한 컴퓨팅 예산으로 훈련되며, 이는 완전히 커버된 번역 작업에서의 일반화를 테스트합니다. 우리는 보이지 않는 작업-언어 쌍을 간접적으로 학습하는 것이 스케일링 법칙을 따르는 것뿐만 아니라, 우리의 데이터 생성 파이프라인과 제안된 Florenz 모델 패밀리를 통해 번역 작업 데이터만 사용해도 특정 언어에서 이미지 캡셔닝 능력이 나타날 수 있음을 보여줍니다. 다운스트림 데이터셋의 혼합에 대한 미세 조정은 경쟁력 있는 성능을 보이며, 멀티모달 기계 번역(Multi30K, CoMMuTE), 어휘적 모호성 해결(CoMMuTE), 이미지 캡셔닝(Multi30K, XM3600, COCO Karpathy)에서 유망한 스케일링 경향을 보여줍니다.
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

Summary

AI-Generated Summary

PDF72March 19, 2025