Aya Vision: Die Grenzen der mehrsprachigen Multimodalität vorantreiben

papers.abstract

Der Aufbau multimodaler Sprachmodelle ist grundsätzlich herausfordernd: Es erfordert die Abstimmung von visuellen und sprachlichen Modalitäten, die Kuratierung hochwertiger Instruktionsdaten und die Vermeidung einer Verschlechterung bestehender textbasierter Fähigkeiten, sobald die visuelle Komponente eingeführt wird. Diese Schwierigkeiten werden im mehrsprachigen Kontext weiter verstärkt, wo der Bedarf an multimodalen Daten in verschiedenen Sprachen die bestehende Datenknappheit verschärft, maschinelle Übersetzungen oft die Bedeutung verzerren und katastrophales Vergessen stärker ausgeprägt ist. Um diese Herausforderungen zu bewältigen, führen wir neuartige Techniken ein, die sowohl Daten als auch Modellierung umfassen. Zunächst entwickeln wir ein synthetisches Annotationsframework, das hochwertige, vielfältige mehrsprachige multimodale Instruktionsdaten kuratiert und es den Aya-Vision-Modellen ermöglicht, natürliche, von Menschen bevorzugte Antworten auf multimodale Eingaben in vielen Sprachen zu generieren. Ergänzend dazu schlagen wir eine cross-modale Modellzusammenführungstechnik vor, die katastrophales Vergessen mildert und effektiv textbasierte Fähigkeiten bewahrt, während gleichzeitig die multimodale generative Leistung verbessert wird. Aya-Vision-8B erreicht im Vergleich zu starken multimodalen Modellen wie Qwen-2.5-VL-7B, Pixtral-12B und sogar deutlich größeren Modellen wie Llama-3.2-90B-Vision eine Spitzenleistung. Wir skalieren diesen Ansatz weiter mit Aya-Vision-32B, das Modelle übertrifft, die mehr als doppelt so groß sind, wie Molmo-72B und LLaMA-3.2-90B-Vision. Unsere Arbeit fördert den mehrsprachigen Fortschritt an der multimodalen Front und liefert Einblicke in Techniken, die den Bedarf an Rechenleistung effektiv reduzieren, während sie gleichzeitig extrem hohe Leistung erbringen.

English

Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.

Aya Vision: Die Grenzen der mehrsprachigen Multimodalität vorantreiben

Aya Vision: Advancing the Frontier of Multilingual Multimodality

papers.abstract

Support