ChatPaper.aiChatPaper

Estrategias de Evolución a Escala: Ajuste Fino de Modelos de Lenguaje Más Allá del Aprendizaje por Refuerzo

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

September 29, 2025
Autores: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
cs.AI

Resumen

El ajuste fino de modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés) para tareas específicas es un paso crítico en el proceso de implementación de la inteligencia artificial. El aprendizaje por refuerzo (RL, por sus siglas en inglés) es, sin duda, el método de ajuste fino más destacado, contribuyendo al desarrollo de muchos LLMs de vanguardia. En contraste, las estrategias evolutivas (ES, por sus siglas en inglés), que alguna vez mostraron un rendimiento comparable al RL en modelos con unos pocos millones de parámetros, fueron relegadas debido a la percepción pesimista sobre su escalabilidad en modelos más grandes. En este trabajo, presentamos el primer intento exitoso de escalar las ES para ajustar fino todos los parámetros de los LLMs, demostrando el hecho sorprendente de que las ES pueden buscar eficientemente entre miles de millones de parámetros y superar los métodos de ajuste fino basados en RL en múltiples aspectos, incluyendo la eficiencia de muestreo, la tolerancia a recompensas de largo plazo, la robustez frente a diferentes LLMs base, una menor tendencia al "hackeo de recompensas" y un rendimiento más estable entre ejecuciones. Por lo tanto, este trabajo sienta las bases para abrir una nueva dirección en el ajuste fino de LLMs más allá de lo que ofrecen las técnicas actuales de RL. Los códigos fuente están disponibles en: https://github.com/VsonicV/es-fine-tuning-paper.
English
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report the first successful attempt to scale up ES for fine-tuning the full parameters of LLMs, showing the surprising fact that ES can search efficiently over billions of parameters and outperform existing RL fine-tuning methods in multiple respects, including sample efficiency, tolerance to long-horizon rewards, robustness to different base LLMs, less tendency to reward hacking, and more stable performance across runs. It therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond what current RL techniques provide. The source codes are provided at: https://github.com/VsonicV/es-fine-tuning-paper.
PDF42September 30, 2025