Rho-1: No todos los tokens son lo que necesitasRho-1: Not All Tokens Are What You Need
Los métodos anteriores de preentrenamiento de modelos de lenguaje han aplicado uniformemente una pérdida de predicción del siguiente token a todos los tokens de entrenamiento. Desafiando esta norma, proponemos que "No todos los tokens en un corpus son igualmente importantes para el entrenamiento de modelos de lenguaje". Nuestro análisis inicial profundiza en la dinámica de entrenamiento a nivel de token de los modelos de lenguaje, revelando patrones de pérdida distintos para diferentes tokens. Aprovechando estas ideas, presentamos un nuevo modelo de lenguaje llamado Rho-1. A diferencia de los modelos de lenguaje tradicionales que aprenden a predecir cada siguiente token en un corpus, Rho-1 emplea Modelado de Lenguaje Selectivo (SLM), que entrena selectivamente en tokens útiles alineados con la distribución deseada. Este enfoque implica puntuar los tokens de preentrenamiento utilizando un modelo de referencia y luego entrenar el modelo de lenguaje con una pérdida enfocada en tokens con mayor pérdida excesiva. Al realizar un preentrenamiento continuo en el corpus OpenWebMath de 15B, Rho-1 logra una mejora absoluta en la precisión de pocos ejemplos de hasta un 30% en 9 tareas matemáticas. Después del ajuste fino, Rho-1-1B y 7B alcanzaron resultados de vanguardia del 40.6% y 51.8% en el conjunto de datos MATH, respectivamente, igualando a DeepSeekMath con solo el 3% de los tokens de preentrenamiento. Además, al preentrenar con 80B tokens generales, Rho-1 logra una mejora promedio del 6.8% en 15 tareas diversas, aumentando tanto la eficiencia como el rendimiento del preentrenamiento de modelos de lenguaje.