Aurora-M: Das erste Open-Source mehrsprachige Sprachmodell, das gemäß der US-Exekutivanordnung red teamed wurde.Aurora-M: The First Open Source Multilingual Language Model Red-teamed
according to the U.S. Executive Order
Vortrainierte Sprachmodelle bilden die Grundlage für mehrere KI-Anwendungen, aber ihre hohe Rechenleistungskosten für das Training begrenzen die Zugänglichkeit. Initiativen wie BLOOM und StarCoder zielen darauf ab, den Zugang zu vortrainierten Modellen für die gemeinschaftliche Entwicklung zu demokratisieren. Allerdings stehen solche bestehenden Modelle vor Herausforderungen: begrenzte mehrsprachige Fähigkeiten, kontinuierliches Vortraining, das zu katastrophalem Vergessen führt, während Vortraining von Grund auf rechnerisch aufwendig ist und die Einhaltung von KI-Sicherheits- und Entwicklungsrichtlinien. Dieses Papier stellt Aurora-M vor, ein 15B-Parameter mehrsprachiges Open-Source-Modell, das auf Englisch, Finnisch, Hindi, Japanisch, Vietnamesisch und Code trainiert wurde. Kontinuierlich vortrainiert von StarCoderPlus auf zusätzlichen 435 Milliarden Tokens, übertrifft Aurora-M insgesamt 2 Billionen Tokens in der Trainings-Tokenanzahl. Es ist das erste Open-Source mehrsprachige Modell, das feinabgestimmt wurde auf sicherheitsüberprüfte Anweisungen, wodurch seine Entwicklung nicht nur mit konventionellen Red-Teaming-Überlegungen, sondern auch mit den spezifischen Bedenken in Einklang gebracht wird, die in der Biden-Harris-Exekutivanordnung zur sicheren, geschützten und vertrauenswürdigen Entwicklung und Nutzung Künstlicher Intelligenz formuliert sind. Aurora-M wird rigoros auf verschiedene Aufgaben und Sprachen evaluiert, zeigt Robustheit gegen katastrophales Vergessen und übertrifft Alternativen in mehrsprachigen Umgebungen, insbesondere bei Sicherheitsevaluationen. Zur Förderung einer verantwortungsbewussten Open-Source-Entwicklung von LLM werden Aurora-M und seine Varianten unter https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 veröffentlicht.