Aya Vision: Avançando a Fronteira da Multimodalidade Multilíngue
Aya Vision: Advancing the Frontier of Multilingual Multimodality
May 13, 2025
Autores: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI
Resumo
Construir modelos de linguagem multimodal é fundamentalmente desafiador: exige
alinhar as modalidades de visão e linguagem, curar dados de instrução de alta
qualidade e evitar a degradação das capacidades existentes apenas de texto uma vez
que a visão é introduzida. Essas dificuldades são ainda mais amplificadas no
contexto multilíngue, onde a necessidade de dados multimodais em diferentes idiomas
exacerba a escassez existente de dados, a tradução automática frequentemente distorce
o significado, e o esquecimento catastrófico é mais pronunciado. Para abordar os
desafios mencionados, introduzimos técnicas inovadoras que abrangem tanto dados
quanto modelagem. Primeiro, desenvolvemos um framework de anotação sintética que
cura dados de instrução multimodal multilíngue de alta qualidade e diversificados,
permitindo que os modelos Aya Vision produzam respostas naturais e preferidas por
humanos para entradas multimodais em muitos idiomas. Complementando isso,
propomos uma técnica de fusão de modelos cross-modal que mitiga o esquecimento
catastrófico, preservando efetivamente as capacidades apenas de texto enquanto
melhora simultaneamente o desempenho generativo multimodal. O Aya-Vision-8B
atinge um desempenho de classe superior em comparação com modelos multimodais
fortes como Qwen-2.5-VL-7B, Pixtral-12B e até mesmo modelos muito maiores como
Llama-3.2-90B-Vision. Além disso, escalamos essa abordagem com o Aya-Vision-32B,
que supera modelos mais que o dobro de seu tamanho, como Molmo-72B e
LLaMA-3.2-90B-Vision. Nosso trabalho avança o progresso multilíngue na fronteira
multimodal e fornece insights sobre técnicas que efetivamente reduzem a necessidade
de computação enquanto entregam desempenho extremamente alto.
English
Building multimodal language models is fundamentally challenging: it requires
aligning vision and language modalities, curating high-quality instruction
data, and avoiding the degradation of existing text-only capabilities once
vision is introduced. These difficulties are further magnified in the
multilingual setting, where the need for multimodal data in different languages
exacerbates existing data scarcity, machine translation often distorts meaning,
and catastrophic forgetting is more pronounced. To address the aforementioned
challenges, we introduce novel techniques spanning both data and modeling.
First, we develop a synthetic annotation framework that curates high-quality,
diverse multilingual multimodal instruction data, enabling Aya Vision models to
produce natural, human-preferred responses to multimodal inputs across many
languages. Complementing this, we propose a cross-modal model merging technique
that mitigates catastrophic forgetting, effectively preserving text-only
capabilities while simultaneously enhancing multimodal generative performance.
Aya-Vision-8B achieves best-in-class performance compared to strong multimodal
models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger
Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which
outperforms models more than twice its size, such as Molmo-72B and
LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the
multi-modal frontier, and provides insights into techniques that effectively
bend the need for compute while delivering extremely high performance.