ChatPaper.aiChatPaper

Abschnitt 23: Offene Gewichtungen zur Förderung des weiteren Fortschritts in der Mehrsprachigkeit

Aya 23: Open Weight Releases to Further Multilingual Progress

May 23, 2024
Autoren: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker
cs.AI

Zusammenfassung

Dieser technische Bericht stellt Aya 23 vor, eine Familie von mehrsprachigen Sprachmodellen. Aya 23 baut auf der kürzlich veröffentlichten Aya-Modell (Ustün et al., 2024) auf und konzentriert sich darauf, ein hochleistungsfähiges vorab trainiertes Modell mit der kürzlich veröffentlichten Aya-Sammlung (Singh et al., 2024) zu kombinieren. Das Ergebnis ist ein leistungsstarkes mehrsprachiges großes Sprachmodell, das 23 Sprachen bedient und die Sprachmodellierungsfähigkeiten auf dem neuesten Stand auf etwa die Hälfte der Weltbevölkerung erweitert. Das Aya-Modell umfasste 101 Sprachen, während Aya 23 ein Experiment in Tiefe gegen Breite darstellt, das die Auswirkungen der Zuweisung von mehr Kapazität auf weniger Sprachen untersucht, die während des Vorabtrainings enthalten sind. Aya 23 übertrifft sowohl frühere massiv mehrsprachige Modelle wie Aya 101 für die abgedeckten Sprachen als auch weit verbreitete Modelle wie Gemma, Mistral und Mixtral bei einer umfangreichen Palette von diskriminierenden und generativen Aufgaben. Wir veröffentlichen die offenen Gewichte sowohl für die 8B- als auch die 35B-Modelle im Rahmen unseres fortgesetzten Engagements zur Erweiterung des Zugangs zum multilingualen Fortschritt.
English
This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

Summary

AI-Generated Summary

PDF321December 15, 2024