ChatPaper.aiChatPaper

규모에 따른 진화 전략: 강화 학습을 넘어선 대형 언어 모델 미세 조정

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

September 29, 2025
저자: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
cs.AI

초록

다운스트림 작업을 위해 사전 훈련된 대규모 언어 모델(LLMs)을 미세 조정하는 것은 AI 배포 파이프라인의 중요한 단계이다. 강화 학습(RL)은 가장 두드러진 미세 조정 방법으로, 많은 최첨단 LLMs의 탄생에 기여했다. 반면, 수백만 개의 파라미터를 가진 모델에서 RL과 비슷한 성능을 보였던 진화 전략(ES)은 더 큰 모델로의 확장성에 대한 비관적인 인식으로 인해 소외되었다. 본 연구에서는 LLMs의 전체 파라미터를 미세 조정하기 위해 ES를 확장하는 첫 번째 성공적인 시도를 보고하며, ES가 수십억 개의 파라미터를 효율적으로 탐색할 수 있고, 샘플 효율성, 장기 보상에 대한 내성, 다양한 기본 LLMs에 대한 견고성, 보장 해킹에 대한 덜한 경향, 실행 간 더 안정적인 성능 등 여러 측면에서 기존 RL 미세 조정 방법을 능가한다는 놀라운 사실을 보여준다. 따라서 이는 현재 RL 기술이 제공하는 것 이상의 LLM 미세 조정의 새로운 방향을 열기 위한 기반이 된다. 소스 코드는 https://github.com/VsonicV/es-fine-tuning-paper에서 제공된다.
English
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report the first successful attempt to scale up ES for fine-tuning the full parameters of LLMs, showing the surprising fact that ES can search efficiently over billions of parameters and outperform existing RL fine-tuning methods in multiple respects, including sample efficiency, tolerance to long-horizon rewards, robustness to different base LLMs, less tendency to reward hacking, and more stable performance across runs. It therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond what current RL techniques provide. The source codes are provided at: https://github.com/VsonicV/es-fine-tuning-paper.
PDF42September 30, 2025