PACEvolve++: Verbetering van test-time learning voor evolutionaire zoekagenten

Samenvatting

Grote taalmodellen zijn drijvende krachten geworden achter evolutionair zoeken, maar de meeste systemen vertrouwen op een vast, prompt-geïnduceerd beleid om volgende kandidaten te bemonsteren. Dit beperkt de aanpassing in praktische technische en onderzoeksopdrachten, waar evaluaties duur zijn en vooruitgang afhangt van het leren van taakspecifieke zoekdynamieken. Wij introduceren PACEvolve++, een raamwerk voor bekrachtigingsleren met een adviesmodel voor beleidsaanpassing tijdens tests in evolutionaire zoekagenten. PACEvolve++ ontkoppelt strategische zoekbeslissingen van implementatie: een trainbare adviseur genereert, beoordeelt en selecteert hypothesen, terwijl een sterker frontiermodel geselecteerde hypothesen vertaalt naar uitvoerbare kandidaten. Om de adviseur te trainen onder niet-stationaire feedback, stellen wij een fase-adaptieve benadering voor die de optimalisatiestrategie aanpast aan verschillende fasen van het evolutionaire proces. Vroeg in de evolutie gebruikt het groepsrelatieve feedback om brede zoekvoorkeuren te leren; later, wanneer de beloningsverschillen afnemen, legt het de nadruk op de beste-van-k frontierebijdrage om stabiele verfijning te ondersteunen. Bij expert-parallelle werklastbalancering, sequentiële aanbeveling en eiwitfitnessextrapolatie overtreft PACEvolve++ het state-of-the-art evolutionair zoekraamwerk met frontiermodellen, en bereikt het snellere convergentie en stabiliseert het de training tijdens tests in evolutionair zoeken.

English

Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.

PACEvolve++: Verbetering van test-time learning voor evolutionaire zoekagenten

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Samenvatting

Support