ChatPaper.aiChatPaper

Aya Vision: 多言語マルチモーダリティのフロンティアを前進させる

Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025
著者: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI

要旨

マルチモーダル言語モデルの構築は根本的に困難な課題である。視覚と言語のモダリティを整合させ、高品質な指示データをキュレーションし、視覚を導入した際に既存のテキストのみの能力が劣化しないようにする必要がある。これらの困難は多言語設定においてさらに増幅される。多言語でのマルチモーダルデータの必要性が既存のデータ不足を悪化させ、機械翻訳が意味を歪めることが多く、破滅的な忘却がより顕著になる。これらの課題に対処するため、データとモデリングの両面にわたる新たな技術を導入する。まず、高品質で多様な多言語マルチモーダル指示データをキュレーションする合成アノテーションフレームワークを開発し、Aya Visionモデルが多くの言語でマルチモーダル入力に対して自然で人間が好む応答を生成できるようにする。これを補完するために、破滅的な忘却を軽減し、テキストのみの能力を効果的に維持しながらマルチモーダル生成性能を向上させるクロスモーダルモデルマージ技術を提案する。Aya-Vision-8Bは、Qwen-2.5-VL-7B、Pixtral-12B、さらにははるかに大規模なLlama-3.2-90B-Visionなどの強力なマルチモーダルモデルと比較しても最高クラスの性能を達成する。さらに、このアプローチをAya-Vision-32Bにスケールアップし、Molmo-72BやLLaMA-3.2-90B-Visionなど、その2倍以上のサイズのモデルを上回る性能を示す。我々の研究は、マルチモーダル分野における多言語進展を推進し、極めて高い性能を提供しながら計算リソースの必要性を効果的に軽減する技術に関する洞察を提供する。
English
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.

Summary

AI-Generated Summary

PDF72May 14, 2025