ChatPaper.aiChatPaper

PACEvolve++: 進化的探索エージェントのテスト時間学習の改善

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

May 7, 2026
著者: Minghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Shuo Chen, Zhankui He, Noveen Sachdeva, Weili Wang, Ed H. Chi, Shivaram Venkataraman, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang
cs.AI

要旨

大規模言語モデルは進化的探索の推進力となっているが、ほとんどのシステムは固定されたプロンプトから引き出された方策に依存して次候補をサンプリングしている。このため、評価コストが高く、タスク固有の探索ダイナミクスの学習に進展が依存する実用的な工学・研究タスクでは適応性が制限される。本稿では、進化的探索エージェントにおけるテスト時方策適応のためのアドバイザーモデル強化学習フレームワークであるPACEvolve++を紹介する。PACEvolve++は戦略的な探索判断を実装から分離する。すなわち、訓練可能なアドバイザーが仮説を生成・評価・選択し、より強力なフロンティアモデルが選択された仮説を実行可能な候補に変換する。非定常なフィードバック下でアドバイザーを訓練するため、進化的プロセスの各フェーズに応じて最適化戦略を適応させるフェーズ適応型アプローチを提案する。進化の初期では、グループ相対フィードバックを用いて広範な探索選好を学習し、後期では報酬の差が縮小するにつれて、k個中の最良フロンティア寄与を重視することで安定した洗練を支援する。専門家並列負荷分散、逐次推薦、タンパク質適合性外挿において、PACEvolve++はフロンティアモデルを用いた最先端の進化的探索フレームワークを上回り、より高速な収束と進化的探索中のテスト時訓練の安定化を達成する。
English
Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.
PDF11May 12, 2026