ChatPaper.aiChatPaper

Strategie Evolutive su Larga Scala: Fine-Tuning di LLM Oltre l'Apprendimento per Rinforzo

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

September 29, 2025
Autori: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
cs.AI

Abstract

Il fine-tuning di modelli linguistici pre-addestrati di grandi dimensioni (LLM) per task specifici rappresenta una fase cruciale nel processo di implementazione dell'IA. Il reinforcement learning (RL) è senza dubbio il metodo di fine-tuning più prominente, avendo contribuito alla nascita di numerosi LLM all'avanguardia. Al contrario, le strategie evolutive (ES), che in passato hanno dimostrato prestazioni comparabili al RL su modelli con pochi milioni di parametri, sono state trascurate a causa di una percezione pessimistica riguardo alla loro scalabilità su modelli più grandi. In questo lavoro, riportiamo il primo tentativo riuscito di scalare le ES per il fine-tuning completo dei parametri degli LLM, dimostrando il fatto sorprendente che le ES possono effettuare ricerche efficienti su miliardi di parametri e superare i metodi di fine-tuning basati su RL in molteplici aspetti, tra cui l'efficienza campionaria, la tolleranza a ricompense a lungo termine, la robustezza rispetto a diversi LLM di base, una minore propensione al reward hacking e prestazioni più stabili tra diverse esecuzioni. Questo lavoro rappresenta quindi una base per aprire una nuova direzione nel fine-tuning degli LLM, andando oltre ciò che le attuali tecniche di RL offrono. I codici sorgenti sono disponibili al seguente indirizzo: https://github.com/VsonicV/es-fine-tuning-paper.
English
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report the first successful attempt to scale up ES for fine-tuning the full parameters of LLMs, showing the surprising fact that ES can search efficiently over billions of parameters and outperform existing RL fine-tuning methods in multiple respects, including sample efficiency, tolerance to long-horizon rewards, robustness to different base LLMs, less tendency to reward hacking, and more stable performance across runs. It therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond what current RL techniques provide. The source codes are provided at: https://github.com/VsonicV/es-fine-tuning-paper.
PDF74September 30, 2025