PACEvolve++: Verbesserung des Testzeitlernens für evolutionäre Suchagenten

Zusammenfassung

Große Sprachmodelle sind zu Treibern der evolutionären Suche geworden, doch die meisten Systeme stützen sich auf eine feste, durch Prompts hervorgerufene Policy zur Stichprobenauswahl nachfolgender Kandidaten. Dies schränkt die Anpassungsfähigkeit in praktischen Ingenieurs- und Forschungsaufgaben ein, bei denen Evaluierungen teuer sind und der Fortschritt vom Erlernen aufgabenspezifischer Suchdynamiken abhängt. Wir stellen PACEvolve++ vor, ein Framework für bestärkendes Lernen mit Beratermodell zur Testzeit-Policy-Anpassung in evolutionären Suchagenten. PACEvolve++ entkoppelt strategische Suchentscheidungen von der Implementierung: Ein trainierbarer Berater erzeugt, bewertet und selektiert Hypothesen, während ein leistungsfähigeres Frontier-Modell die selektierten Hypothesen in ausführbare Kandidaten übersetzt. Um den Berater unter nicht-stationärem Feedback zu trainieren, schlagen wir eine phasenadaptive Methode vor, die seine Optimierungsstrategie an verschiedene Phasen des Evolutionsprozesses anpasst. Frühe Evolutionsphasen nutzen gruppenrelatives Feedback, um breite Suchpräferenzen zu erlernen; später, wenn sich die Belohnungsunterschiede verringern, betont sie den Best-of-K Grenzbeitrag zur Unterstützung einer stabilen Verfeinerung. In den Bereichen Experten-parallele Lastverteilung, sequentielle Empfehlung und Proteinfitness-Extrapolation übertrifft PACEvolve++ das modernste evolutionäre Suchframework mit Frontier-Modellen, erzielt schnellere Konvergenz und stabilisiert das Training während der Testzeit im Rahmen der evolutionären Suche.

English

Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.

PACEvolve++: Verbesserung des Testzeitlernens für evolutionäre Suchagenten

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Zusammenfassung

Support