Zelfverbeterende Taalmodellen met Bidirectionele Evolutionaire Zoektocht

Samenvatting

Zoeken is voorgesteld als een effectieve methode voor zelfverbeterende taalmodellen en agentische systemen, zowel voor post-training samplegeneratie als voor inferentie. Echter, veelgebruikte methoden zoals best-of-N-sampling en boomzoeken kennen twee fundamentele beperkingen: ze worden gestuurd door spaarse verificatiesignalen, en ze construeren kandidaten voornamelijk via autoregressieve expansie, waardoor de exploratie wordt beperkt tot gebieden met substantiële modelkansmassa. Om deze problemen aan te pakken stellen wij Bidirectioneel Evolutionair Zoeken (BES) voor, een zoekraamwerk dat voorwaartse kandidaatevolutie koppelt aan achterwaartse doeldecompositie. In het voorwaartse zoeken verrijkt BES de standaardexpansie met evolutieoperatoren die partiële trajecten hercombineren om kandidaten te genereren die moeilijk te verkrijgen zijn met een enkele modelrollout. In het achterwaartse zoeken deconstrueert BES de oorspronkelijke taak recursief in controleerbare subdoelen, wat leidt tot dichte tussentijdse feedback die het voorwaartse zoeken stuurt. We leveren theoretische motivatie waaruit blijkt dat kandidaten gegenereerd door alleen expansie beperkt blijven tot een smalle entropieschil, terwijl evolutionaire operatoren eruit kunnen ontsnappen, en dat achterwaarts zoeken het aantal benodigde monsters om een correct antwoord te vinden exponentieel kan reduceren. Experimenten tonen aan dat BES bij uitdagende post-trainingstaken waar gangbare post-trainingalgoritmen niet in slagen te verbeteren, consistente winst oplevert, en bij drie open probleemoplossende benchmarks tijdens inferentie presteert BES beter dan bestaande open-source frameworks, zowel in gemiddelde als in best-case prestaties. Code en getrainde modellen zijn beschikbaar op https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.