Aurora-M: El primer modelo de lenguaje multilingüe de código abierto sometido a pruebas de resistencia según la Orden Ejecutiva de los Estados UnidosAurora-M: The First Open Source Multilingual Language Model Red-teamed
according to the U.S. Executive Order
Los modelos de lenguaje preentrenados son la base de varias aplicaciones de IA, pero su alto costo computacional para el entrenamiento limita su accesibilidad. Iniciativas como BLOOM y StarCoder buscan democratizar el acceso a modelos preentrenados para el desarrollo colaborativo de la comunidad. Sin embargo, estos modelos existentes enfrentan desafíos: capacidades multilingües limitadas, el preentrenamiento continuo que provoca olvido catastrófico, mientras que el preentrenamiento desde cero es computacionalmente costoso, y el cumplimiento de las leyes de seguridad y desarrollo de IA. Este artículo presenta Aurora-M, un modelo multilingüe de código abierto con 15 mil millones de parámetros entrenado en inglés, finlandés, hindi, japonés, vietnamita y código. Preentrenado continuamente a partir de StarCoderPlus con 435 mil millones de tokens adicionales, Aurora-M supera los 2 billones de tokens en el recuento total de tokens de entrenamiento. Es el primer modelo multilingüe de código abierto ajustado con instrucciones de seguridad revisadas por humanos, alineando su desarrollo no solo con consideraciones convencionales de red-teaming, sino también con las preocupaciones específicas articuladas en la Orden Ejecutiva Biden-Harris sobre el Desarrollo y Uso Seguro, Seguro y Confiable de la Inteligencia Artificial. Aurora-M es rigurosamente evaluado en diversas tareas y idiomas, demostrando robustez contra el olvido catastrófico y superando a las alternativas en entornos multilingües, particularmente en evaluaciones de seguridad. Para promover el desarrollo responsable de modelos de lenguaje de código abierto, Aurora-M y sus variantes se publican en https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.