ChatPaper.aiChatPaper

Aya Vision: Продвижение границ многоязычной мультимодальности

Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025
Авторы: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI

Аннотация

Создание мультимодальных языковых моделей представляет собой фундаментально сложную задачу: оно требует согласования визуальной и языковой модальностей, тщательного отбора высококачественных обучающих данных и предотвращения ухудшения существующих текстовых возможностей после введения визуального компонента. Эти трудности еще больше усугубляются в многоязычной среде, где необходимость в мультимодальных данных на разных языках усиливает существующий дефицит данных, машинный перевод часто искажает смысл, а катастрофическое забывание становится более выраженным. Для решения этих проблем мы предлагаем новые методы, охватывающие как данные, так и моделирование. Во-первых, мы разрабатываем синтетическую систему аннотирования, которая создает высококачественные, разнообразные мультиязычные мультимодальные обучающие данные, позволяя моделям Aya Vision генерировать естественные, предпочитаемые человеком ответы на мультимодальные запросы на многих языках. Дополняя это, мы предлагаем технику кросс-модального объединения моделей, которая смягчает катастрофическое забывание, эффективно сохраняя текстовые возможности и одновременно улучшая мультимодальную генеративную производительность. Модель Aya-Vision-8B демонстрирует наилучшие результаты в своем классе по сравнению с сильными мультимодальными моделями, такими как Qwen-2.5-VL-7B, Pixtral-12B и даже значительно более крупной Llama-3.2-90B-Vision. Мы также масштабируем этот подход с помощью Aya-Vision-32B, которая превосходит модели более чем в два раза большего размера, такие как Molmo-72B и LLaMA-3.2-90B-Vision. Наша работа способствует прогрессу в области мультиязычной мультимодальности и предлагает методы, которые эффективно снижают потребность в вычислительных ресурсах, обеспечивая при этом исключительно высокую производительность.
English
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
PDF122May 14, 2025