PACEvolve++ : Amélioration de l'apprentissage en phase de test pour les agents de recherche évolutionnaires

Résumé

Les grands modèles de langage sont devenus des moteurs de la recherche évolutionnaire, mais la plupart des systèmes reposent sur une politique fixe, induite par un prompt, pour échantillonner les prochains candidats. Cela limite l'adaptation dans les tâches pratiques d'ingénierie et de recherche, où les évaluations sont coûteuses et où le progrès dépend de l'apprentissage de la dynamique de recherche propre à chaque tâche. Nous présentons PACEvolve++, un cadre d'apprentissage par renforcement avec modèle-conseiller pour l'adaptation de politique en phase de test dans les agents de recherche évolutionnaire. PACEvolve++ dissocie les décisions stratégiques de recherche de leur mise en œuvre : un conseiller entraînable génère, évalue et sélectionne des hypothèses, tandis qu'un modèle de pointe plus puissant traduit les hypothèses sélectionnées en candidats exécutables. Pour entraîner le conseiller sous une rétroaction non stationnaire, nous proposons une approche adaptative en phase qui ajuste sa stratégie d'optimisation en fonction des différentes phases du processus évolutionnaire. En début d'évolution, elle utilise un retour relatif au groupe pour apprendre des préférences de recherche larges ; plus tard, lorsque les écarts de récompense se resserrent, elle privilégie la contribution de la meilleure frontière parmi k pour soutenir un raffinement stable. Dans les domaines de l'équilibrage de charge expert-parallèle, de la recommandation séquentielle et de l'extrapolation de l'aptitude des protéines, PACEvolve++ surpasse le cadre de recherche évolutionnaire de pointe avec modèles de frontière, obtenant une convergence plus rapide et stabilisant l'entraînement en phase de test pendant la recherche évolutionnaire.

English

Large language models have become drivers of evolutionary search, but most systems rely on a fixed, prompt-elicited policy to sample next candidates. This limits adaptation in practical engineering and research tasks, where evaluations are expensive, and progress depends on learning task-specific search dynamics. We introduce PACEvolve++, an advisor-model reinforcement learning framework for test-time policy adaptation in evolutionary search agents. PACEvolve++ decouples strategic search decisions from implementation: a trainable advisor generates, assesses, and selects hypotheses, while a stronger frontier model translates selected hypotheses into executable candidates. To train the advisor under non-stationary feedback, we propose a phase-adaptive approach that adapts its optimization strategy to different phases of the evolutionary process. Early in evolution, it uses group-relative feedback to learn broad search preferences; later, as reward gaps compress, it emphasizes best-of-k frontier contribution to support stable refinement. Across expert-parallel load balancing, sequential recommendation, and protein fitness extrapolation, PACEvolve++ outperforms the state-of-the-art evolutionary search framework with frontier models, achieving faster convergence and stabilizing test-time training during evolutionary search.

PACEvolve++ : Amélioration de l'apprentissage en phase de test pour les agents de recherche évolutionnaires

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Résumé

Support