Yi: Modelos Fundacionales Abiertos por 01.AIYi: Open Foundation Models by 01.AI
Presentamos la familia de modelos Yi, una serie de modelos de lenguaje y multimodales que demuestran capacidades sólidas en múltiples dimensiones. La familia de modelos Yi se basa en modelos de lenguaje preentrenados de 6B y 34B, los cuales extendemos para crear modelos de chat, modelos de contexto largo de 200K, modelos con escalado de profundidad y modelos de visión-lenguaje. Nuestros modelos base logran un rendimiento destacado en una amplia gama de benchmarks como MMLU, y nuestros modelos de chat ajustados obtienen una alta tasa de preferencia humana en plataformas de evaluación principales como AlpacaEval y Chatbot Arena. Basándonos en nuestra infraestructura escalable de supercomputación y la arquitectura clásica de transformadores, atribuimos el rendimiento de los modelos Yi principalmente a la calidad de los datos, resultado de nuestros esfuerzos en ingeniería de datos. Para el preentrenamiento, construimos un corpus de 3.1 billones de tokens en inglés y chino utilizando un pipeline en cascada de deduplicación y filtrado de calidad. Para el ajuste fino, refinamos un conjunto de datos de instrucciones de pequeña escala (menos de 10K) a través de múltiples iteraciones, de modo que cada instancia ha sido verificada directamente por nuestros ingenieros de aprendizaje automático. Para visión-lenguaje, combinamos el modelo de lenguaje de chat con un codificador de transformadores de visión y entrenamos el modelo para alinear las representaciones visuales con el espacio semántico del modelo de lenguaje. Además, extendemos la longitud de contexto a 200K mediante un preentrenamiento continuo ligero y demostramos un rendimiento sólido en tareas de recuperación de "aguja en un pajar". Mostramos que extender la profundidad del punto de control preentrenado a través del preentrenamiento continuo mejora aún más el rendimiento. Creemos que, dados nuestros resultados actuales, continuar escalando los parámetros del modelo utilizando datos optimizados de manera exhaustiva conducirá a modelos frontera aún más potentes.