Modèles de langage auto-améliorants par recherche évolutive bidirectionnelle

Résumé

La recherche a été proposée comme une méthode efficace pour les modèles de langage auto-améliorants et les systèmes agentiques, tant pour la génération d'échantillons post-entraînement que pour l'inférence. Cependant, les méthodes largement utilisées telles que l'échantillonnage best-of-N et la recherche arborescente présentent deux limitations fondamentales : elles sont guidées par des signaux de vérification épars, et elles construisent principalement des candidats par expansion autorégressive, restreignant l'exploration à des régions où la masse de probabilité du modèle est substantielle. Pour y remédier, nous proposons la Recherche Évolutionnaire Bidirectionnelle (BES), un cadre de recherche qui couple l'évolution des candidats vers l'avant avec la décomposition des objectifs vers l'arrière. Dans la recherche avant, BES enrichit l'expansion standard par des opérateurs d'évolution qui recombinent des trajectoires partielles pour générer des candidats difficilement obtenus à partir d'un seul déploiement du modèle. Dans la recherche arrière, BES décompose récursivement la tâche originale en sous-objectifs vérifiables, produisant un retour dense intermédiaire qui guide la recherche avant. Nous fournissons une motivation théorique montrant que les candidats générés par une recherche uniquement par expansion sont confinés à une coquille d'entropie étroite, tandis que les opérateurs évolutionnaires peuvent en sortir, et que la recherche arrière peut réduire exponentiellement le nombre d'échantillons nécessaires pour trouver une réponse correcte. Les expériences montrent que sur des tâches d'entraînement post-entraînement difficiles où les algorithmes classiques d'entraînement post-entraînement échouent à améliorer les performances, BES permet des gains constants, et sur trois bancs d'essai de résolution de problèmes ouverts lors de l'inférence, BES surpasse les cadres open source existants en termes de performances moyennes et maximales. Le code et les modèles entraînés sont disponibles à l'adresse https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.