PACEvolve++: Улучшение обучения во время тестирования для эволюционных поисковых агентов

Аннотация

Большие языковые модели стали движущей силой эволюционного поиска, однако большинство систем полагаются на фиксированную политику, индуцированную промптами, для выборки следующих кандидатов. Это ограничивает адаптацию в практических инженерных и исследовательских задачах, где оценки дороги, а прогресс зависит от изучения динамики поиска, специфичной для конкретной задачи. Мы представляем PACEvolve++ — фреймворк обучения с подкреплением на основе модели-советника для адаптации политики во время тестирования в агентах эволюционного поиска. PACEvolve++ разделяет стратегические решения поиска и их реализацию: обучаемый советник генерирует, оценивает и отбирает гипотезы, в то время как более сильная передовая модель преобразует выбранные гипотезы в исполнимые кандидаты. Для обучения советника в условиях нестационарной обратной связи мы предлагаем фазово-адаптивный подход, который адаптирует стратегию оптимизации к различным фазам эволюционного процесса. На ранних этапах эволюции используется групповая относительная обратная связь для изучения общих предпочтений в поиске; позднее, когда разрыв в значениях наград сжимается, акцент смещается на вклад лучшей из k передовых моделей для обеспечения стабильного уточнения. В задачах балансировки нагрузки в экспертной параллельной системе, последовательной рекомендации и экстраполяции приспособленности белков PACEvolve++ превосходит современные фреймворки эволюционного поиска с передовыми моделями, демонстрируя более быструю сходимость и стабилизируя обучение во время тестирования в процессе эволюционного поиска.

English

Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.

PACEvolve++: Улучшение обучения во время тестирования для эволюционных поисковых агентов

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Аннотация

Support