ChatPaper.aiChatPaper

Aya Vision: Avanzando en la Frontera de la Multimodalidad Multilingüe

Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025
Autores: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
cs.AI

Resumen

La construcción de modelos de lenguaje multimodal es fundamentalmente desafiante: requiere alinear las modalidades de visión y lenguaje, curar datos de instrucción de alta calidad y evitar la degradación de las capacidades existentes basadas únicamente en texto una vez que se introduce la visión. Estas dificultades se amplían aún más en el entorno multilingüe, donde la necesidad de datos multimodales en diferentes idiomas exacerba la escasez de datos existente, la traducción automática a menudo distorsiona el significado y el olvido catastrófico es más pronunciado. Para abordar los desafíos mencionados, introducimos técnicas novedosas que abarcan tanto datos como modelado. En primer lugar, desarrollamos un marco de anotación sintética que cura datos de instrucción multimodal multilingüe de alta calidad y diversa, permitiendo que los modelos Aya Vision produzcan respuestas naturales y preferidas por los humanos para entradas multimodales en muchos idiomas. Complementando esto, proponemos una técnica de fusión de modelos cruzados que mitiga el olvido catastrófico, preservando efectivamente las capacidades basadas únicamente en texto mientras mejora simultáneamente el rendimiento generativo multimodal. Aya-Vision-8B logra un rendimiento líder en su clase en comparación con modelos multimodales fuertes como Qwen-2.5-VL-7B, Pixtral-12B e incluso modelos mucho más grandes como Llama-3.2-90B-Vision. Además, escalamos este enfoque con Aya-Vision-32B, que supera a modelos más del doble de su tamaño, como Molmo-72B y LLaMA-3.2-90B-Vision. Nuestro trabajo avanza el progreso multilingüe en la frontera multimodal y proporciona insights sobre técnicas que efectivamente reducen la necesidad de cómputo mientras ofrecen un rendimiento extremadamente alto.
English
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
PDF122May 14, 2025