ChatPaper.aiChatPaper

Stratégies d'évolution à grande échelle : Affinage des modèles de langage au-delà de l'apprentissage par renforcement

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

September 29, 2025
papers.authors: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
cs.AI

papers.abstract

L'ajustement fin des grands modèles de langage pré-entraînés (LLMs) pour des tâches en aval constitue une étape cruciale dans le pipeline de déploiement de l'IA. L'apprentissage par renforcement (RL) est sans doute la méthode d'ajustement fin la plus répandue, ayant contribué à l'émergence de nombreux LLMs de pointe. En revanche, les stratégies d'évolution (ES), qui avaient autrefois démontré des performances comparables au RL sur des modèles de quelques millions de paramètres, ont été négligées en raison d'une perception pessimiste de leur évolutivité vers des modèles plus grands. Dans ce travail, nous rapportons la première tentative réussie de mise à l'échelle des ES pour l'ajustement fin de l'ensemble des paramètres des LLMs, révélant le fait surprenant que les ES peuvent explorer efficacement des milliards de paramètres et surpasser les méthodes d'ajustement fin par RL à plusieurs égards, notamment en termes d'efficacité d'échantillonnage, de tolérance aux récompenses à long terme, de robustesse face à différents LLMs de base, de moindre tendance au piratage des récompenses et de performances plus stables entre les exécutions. Cela ouvre donc la voie à une nouvelle direction dans l'ajustement fin des LLMs, au-delà de ce que les techniques actuelles de RL offrent. Les codes sources sont disponibles à l'adresse suivante : https://github.com/VsonicV/es-fine-tuning-paper.
English
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report the first successful attempt to scale up ES for fine-tuning the full parameters of LLMs, showing the surprising fact that ES can search efficiently over billions of parameters and outperform existing RL fine-tuning methods in multiple respects, including sample efficiency, tolerance to long-horizon rewards, robustness to different base LLMs, less tendency to reward hacking, and more stable performance across runs. It therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond what current RL techniques provide. The source codes are provided at: https://github.com/VsonicV/es-fine-tuning-paper.
PDF42September 30, 2025