Aya Vision: Die Grenzen der mehrsprachigen Multimodalität vorantreiben
Aya Vision: Advancing the Frontier of Multilingual Multimodality
May 13, 2025
papers.authors: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI
papers.abstract
Der Aufbau multimodaler Sprachmodelle ist grundsätzlich herausfordernd: Es erfordert die Abstimmung von visuellen und sprachlichen Modalitäten, die Kuratierung hochwertiger Instruktionsdaten und die Vermeidung einer Verschlechterung bestehender textbasierter Fähigkeiten, sobald die visuelle Komponente eingeführt wird. Diese Schwierigkeiten werden im mehrsprachigen Kontext weiter verstärkt, wo der Bedarf an multimodalen Daten in verschiedenen Sprachen die bestehende Datenknappheit verschärft, maschinelle Übersetzungen oft die Bedeutung verzerren und katastrophales Vergessen stärker ausgeprägt ist. Um diese Herausforderungen zu bewältigen, führen wir neuartige Techniken ein, die sowohl Daten als auch Modellierung umfassen. Zunächst entwickeln wir ein synthetisches Annotationsframework, das hochwertige, vielfältige mehrsprachige multimodale Instruktionsdaten kuratiert und es den Aya-Vision-Modellen ermöglicht, natürliche, von Menschen bevorzugte Antworten auf multimodale Eingaben in vielen Sprachen zu generieren. Ergänzend dazu schlagen wir eine cross-modale Modellzusammenführungstechnik vor, die katastrophales Vergessen mildert und effektiv textbasierte Fähigkeiten bewahrt, während gleichzeitig die multimodale generative Leistung verbessert wird. Aya-Vision-8B erreicht im Vergleich zu starken multimodalen Modellen wie Qwen-2.5-VL-7B, Pixtral-12B und sogar deutlich größeren Modellen wie Llama-3.2-90B-Vision eine Spitzenleistung. Wir skalieren diesen Ansatz weiter mit Aya-Vision-32B, das Modelle übertrifft, die mehr als doppelt so groß sind, wie Molmo-72B und LLaMA-3.2-90B-Vision. Unsere Arbeit fördert den mehrsprachigen Fortschritt an der multimodalen Front und liefert Einblicke in Techniken, die den Bedarf an Rechenleistung effektiv reduzieren, während sie gleichzeitig extrem hohe Leistung erbringen.
English
Building multimodal language models is fundamentally challenging: it requires
aligning vision and language modalities, curating high-quality instruction
data, and avoiding the degradation of existing text-only capabilities once
vision is introduced. These difficulties are further magnified in the
multilingual setting, where the need for multimodal data in different languages
exacerbates existing data scarcity, machine translation often distorts meaning,
and catastrophic forgetting is more pronounced. To address the aforementioned
challenges, we introduce novel techniques spanning both data and modeling.
First, we develop a synthetic annotation framework that curates high-quality,
diverse multilingual multimodal instruction data, enabling Aya Vision models to
produce natural, human-preferred responses to multimodal inputs across many
languages. Complementing this, we propose a cross-modal model merging technique
that mitigates catastrophic forgetting, effectively preserving text-only
capabilities while simultaneously enhancing multimodal generative performance.
Aya-Vision-8B achieves best-in-class performance compared to strong multimodal
models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger
Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which
outperforms models more than twice its size, such as Molmo-72B and
LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the
multi-modal frontier, and provides insights into techniques that effectively
bend the need for compute while delivering extremely high performance.