TÜLU 3: Avanzando en los Límites en el Post-Entrenamiento de Modelos de Lenguaje AbiertosTÜLU 3: Pushing Frontiers in Open Language Model Post-Training
La post-entrenamiento del modelo de lenguaje se aplica para refinar comportamientos y desbloquear nuevas habilidades en una amplia gama de modelos de lenguaje recientes, pero las recetas abiertas para aplicar estas técnicas se quedan atrás de las propietarias. Los datos de entrenamiento subyacentes y las recetas para la post-entrenamiento son simultáneamente las piezas más importantes del rompecabezas y la porción con menos transparencia. Para cerrar esta brecha, presentamos TÜLU 3, una familia de modelos post-entrenados de vanguardia totalmente abiertos, junto con sus datos, código y recetas de entrenamiento, sirviendo como una guía integral para las técnicas modernas de post-entrenamiento. TÜLU 3, que se basa en los modelos base de Llama 3.1, logra resultados que superan a las versiones instructivas de Llama 3.1, Qwen 2.5, Mistral e incluso modelos cerrados como GPT-4o-mini y Claude 3.5-Haiku. Los algoritmos de entrenamiento para nuestros modelos incluyen ajuste fino supervisado (SFT), Optimización Directa de Preferencias (DPO) y un método novedoso que llamamos Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Con TÜLU 3, presentamos un esquema de evaluación multi-tarea para recetas de post-entrenamiento con evaluaciones de desarrollo y no vistas, implementaciones de referencia estándar y una descontaminación sustancial de conjuntos de datos abiertos existentes en dichas pruebas. Concluimos con un análisis y discusión de métodos de entrenamiento que no mejoraron el rendimiento de manera confiable. Además de los pesos del modelo TÜLU 3 y la demostración, publicamos la receta completa, que incluye conjuntos de datos para diversas habilidades básicas, un conjunto de herramientas robusto para curación y evaluación de datos, el código de entrenamiento y la infraestructura, y, lo más importante, un informe detallado para reproducir y adaptar aún más el enfoque de TÜLU 3 a más dominios.