Aya-Modell: Ein instruktionsfeinabgestimmtes, frei zugängliches mehrsprachiges SprachmodellAya Model: An Instruction Finetuned Open-Access Multilingual Language
Model
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) konzentrierten sich auf eine Handvoll datenreicher Sprachen. Was ist nötig, um den Zugang zu diesen Fortschritten über die Sprachen der „ersten Klasse“ hinaus zu erweitern? Unsere Arbeit stellt Aya vor, ein massiv mehrsprachiges generatives Sprachmodell, das Anweisungen in 101 Sprachen befolgt, von denen über 50 % als ressourcenarm gelten. Aya übertrifft mT0 und BLOOMZ bei der Mehrheit der Aufgaben und deckt dabei doppelt so viele Sprachen ab. Wir führen umfangreiche neue Evaluationssuiten ein, die den Stand der Technik für mehrsprachige Bewertungen über 99 Sprachen erweitern – einschließlich diskriminativer und generativer Aufgaben, menschlicher Bewertungen und simulierter Gewinnraten, die sowohl zurückgehaltene Aufgaben als auch In-Distribution-Leistungen abdecken. Darüber hinaus führen wir detaillierte Untersuchungen zur optimalen Zusammensetzung der Feinabstimmungsmischung, zur Datenbereinigung sowie zur Toxizität, Voreingenommenheit und Sicherheit unserer Modelle durch. Wir stellen unsere Instruktionsdatensätze und unser Modell unter https://hf.co/CohereForAI/aya-101 als Open Source zur Verfügung.