ChatPaper.aiChatPaper

Aya Vision : Repousser les Frontières de la Multimodalité Multilingue

Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025
papers.authors: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI

papers.abstract

La construction de modèles de langage multimodaux est fondamentalement complexe : elle nécessite d'aligner les modalités visuelles et linguistiques, de constituer des données d'instructions de haute qualité, et d'éviter la dégradation des capacités existantes en texte seul une fois que la vision est introduite. Ces difficultés sont encore amplifiées dans un contexte multilingue, où le besoin de données multimodales dans différentes langues exacerbe la pénurie de données existante, la traduction automatique déforme souvent le sens, et l'oubli catastrophique est plus prononcé. Pour relever ces défis, nous introduisons des techniques novatrices couvrant à la fois les données et la modélisation. Tout d'abord, nous développons un cadre d'annotation synthétique qui constitue des données d'instructions multimodales multilingues de haute qualité et diversifiées, permettant aux modèles Aya Vision de produire des réponses naturelles et préférées par les humains pour des entrées multimodales dans de nombreuses langues. En complément, nous proposons une technique de fusion de modèles intermodaux qui atténue l'oubli catastrophique, préservant efficacement les capacités en texte seul tout en améliorant simultanément les performances génératives multimodales. Aya-Vision-8B obtient des performances de premier plan par rapport à des modèles multimodaux solides tels que Qwen-2.5-VL-7B, Pixtral-12B, et même des modèles beaucoup plus grands comme Llama-3.2-90B-Vision. Nous poussons cette approche plus loin avec Aya-Vision-32B, qui surpasse des modèles plus de deux fois plus grands, tels que Molmo-72B et LLaMA-3.2-90B-Vision. Notre travail fait progresser le front multilingue dans le domaine multimodal et offre des insights sur des techniques qui réduisent efficacement le besoin en calcul tout en offrant des performances extrêmement élevées.
English
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
PDF122May 14, 2025