PACEvolve++: Mejora del aprendizaje en tiempo de prueba para agentes de búsqueda evolutiva

Resumen

Los modelos de lenguaje extenso se han convertido en impulsores de la búsqueda evolutiva, pero la mayoría de los sistemas dependen de una política fija, elicitada mediante indicaciones, para muestrear los siguientes candidatos. Esto limita la adaptación en tareas prácticas de ingeniería e investigación, donde las evaluaciones son costosas y el progreso depende del aprendizaje de dinámicas de búsqueda específicas para la tarea. Presentamos PACEvolve++, un marco de aprendizaje por refuerzo basado en modelos asesores para la adaptación de políticas en tiempo de prueba en agentes de búsqueda evolutiva. PACEvolve++ desacopla las decisiones estratégicas de búsqueda de la implementación: un asesor entrenable genera, evalúa y selecciona hipótesis, mientras que un modelo frontera más fuerte traduce las hipótesis seleccionadas en candidatos ejecutables. Para entrenar al asesor bajo retroalimentación no estacionaria, proponemos un enfoque adaptativo por fases que ajusta su estrategia de optimización a diferentes etapas del proceso evolutivo. Al inicio de la evolución, utiliza retroalimentación relativa al grupo para aprender preferencias amplias de búsqueda; más adelante, a medida que las brechas de recompensa se reducen, enfatiza la contribución del mejor-de-k de la frontera para apoyar un refinamiento estable. En tareas como el equilibrio de carga paralelo experto, la recomendación secuencial y la extrapolación de aptitud proteica, PACEvolve++ supera al marco de búsqueda evolutiva más avanzado con modelos frontera, logrando una convergencia más rápida y estabilizando el entrenamiento en tiempo de prueba durante la búsqueda evolutiva.

English

Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.

PACEvolve++: Mejora del aprendizaje en tiempo de prueba para agentes de búsqueda evolutiva

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Resumen

Support