Aya Vision: Avanzare le Frontiere della Multimodalità Multilingue
Aya Vision: Advancing the Frontier of Multilingual Multimodality
May 13, 2025
Autori: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI
Abstract
Costruire modelli linguistici multimodali è fondamentalmente impegnativo: richiede l'allineamento delle modalità visive e linguistiche, la cura di dati di istruzione di alta qualità e l'evitare il degrado delle capacità esistenti basate solo sul testo una volta introdotta la visione. Queste difficoltà sono ulteriormente amplificate in un contesto multilingue, dove la necessità di dati multimodali in diverse lingue aggrava la scarsità di dati esistente, la traduzione automatica spesso distorce il significato e l'oblio catastrofico è più pronunciato. Per affrontare le sfide sopra menzionate, introduciamo tecniche innovative che abbracciano sia i dati che la modellazione. In primo luogo, sviluppiamo un framework di annotazione sintetica che cura dati di istruzione multimodali multilingue di alta qualità e diversificati, consentendo ai modelli Aya Vision di produrre risposte naturali e preferite dagli esseri umani a input multimodali in molte lingue. A complemento di ciò, proponiamo una tecnica di fusione cross-modale che mitiga l'oblio catastrofico, preservando efficacemente le capacità basate solo sul testo mentre migliora simultaneamente le prestazioni generative multimodali. Aya-Vision-8B raggiunge prestazioni di livello superiore rispetto a modelli multimodali robusti come Qwen-2.5-VL-7B, Pixtral-12B e persino modelli molto più grandi come Llama-3.2-90B-Vision. Scaliamo ulteriormente questo approccio con Aya-Vision-32B, che supera modelli più del doppio delle sue dimensioni, come Molmo-72B e LLaMA-3.2-90B-Vision. Il nostro lavoro avanza il progresso multilingue sulla frontiera multimodale e fornisce approfondimenti su tecniche che riducono efficacemente la necessità di calcolo pur fornendo prestazioni estremamente elevate.
English
Building multimodal language models is fundamentally challenging: it requires
aligning vision and language modalities, curating high-quality instruction
data, and avoiding the degradation of existing text-only capabilities once
vision is introduced. These difficulties are further magnified in the
multilingual setting, where the need for multimodal data in different languages
exacerbates existing data scarcity, machine translation often distorts meaning,
and catastrophic forgetting is more pronounced. To address the aforementioned
challenges, we introduce novel techniques spanning both data and modeling.
First, we develop a synthetic annotation framework that curates high-quality,
diverse multilingual multimodal instruction data, enabling Aya Vision models to
produce natural, human-preferred responses to multimodal inputs across many
languages. Complementing this, we propose a cross-modal model merging technique
that mitigates catastrophic forgetting, effectively preserving text-only
capabilities while simultaneously enhancing multimodal generative performance.
Aya-Vision-8B achieves best-in-class performance compared to strong multimodal
models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger
Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which
outperforms models more than twice its size, such as Molmo-72B and
LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the
multi-modal frontier, and provides insights into techniques that effectively
bend the need for compute while delivering extremely high performance.