Evolutionäre Strategien im großen Maßstab: Feinabstimmung von LLMs jenseits des bestärkenden Lernens
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
September 29, 2025
papers.authors: Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
cs.AI
papers.abstract
Das Feinabstimmen vortrainierter großer Sprachmodelle (LLMs) für nachgelagerte Aufgaben ist ein entscheidender Schritt in der KI-Bereitstellungspipeline. Das Verstärkungslernen (Reinforcement Learning, RL) ist wohl die bekannteste Methode zur Feinabstimmung und hat zur Entstehung vieler modernster LLMs beigetragen. Im Gegensatz dazu wurden Evolutionsstrategien (Evolution Strategies, ES), die einst vergleichbare Leistungen wie RL bei Modellen mit einigen Millionen Parametern zeigten, aufgrund der pessimistischen Einschätzung ihrer Skalierbarkeit auf größere Modelle vernachlässigt. In dieser Arbeit berichten wir über den ersten erfolgreichen Versuch, ES für die Feinabstimmung der vollständigen Parameter von LLMs zu skalieren, und zeigen die überraschende Tatsache, dass ES effizient über Milliarden von Parametern suchen und bestehende RL-Feinabstimmungsmethoden in mehrfacher Hinsicht übertreffen kann, einschließlich der Stichprobeneffizienz, der Toleranz gegenüber langfristigen Belohnungen, der Robustheit gegenüber verschiedenen Basis-LLMs, einer geringeren Neigung zum Belohnungshacking und einer stabileren Leistung über mehrere Durchläufe hinweg. Es dient somit als Grundlage, um eine neue Richtung in der Feinabstimmung von LLMs jenseits der aktuellen RL-Techniken zu erschließen. Die Quellcodes sind unter folgender Adresse verfügbar: https://github.com/VsonicV/es-fine-tuning-paper.
English
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is
a critical step in the AI deployment pipeline. Reinforcement learning (RL) is
arguably the most prominent fine-tuning method, contributing to the birth of
many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once
showed comparable performance to RL on models with a few million parameters,
was neglected due to the pessimistic perception of its scalability to larger
models. In this work, we report the first successful attempt to scale up ES for
fine-tuning the full parameters of LLMs, showing the surprising fact that ES
can search efficiently over billions of parameters and outperform existing RL
fine-tuning methods in multiple respects, including sample efficiency,
tolerance to long-horizon rewards, robustness to different base LLMs, less
tendency to reward hacking, and more stable performance across runs. It
therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond
what current RL techniques provide. The source codes are provided at:
https://github.com/VsonicV/es-fine-tuning-paper.