Selbstverbessernde Sprachmodelle mit bidirektionaler evolutionärer Suche

Zusammenfassung

Suche wurde als effektive Methode zur Selbstverbesserung von Sprachmodellen und agentischen Systemen vorgeschlagen, sowohl für die Stichprobengenerierung nach dem Training als auch für die Inferenz. Allerdings weisen weit verbreitete Methoden wie Best-of-N-Stichprobenziehung und Baumsuche zwei grundlegende Einschränkungen auf: Sie werden von spärlichen Verifikationssignalen geleitet und konstruieren Kandidaten hauptsächlich durch autoregressive Expansion, was die Erkundung auf Bereiche mit erheblicher Modell-Wahrscheinlichkeitsmasse beschränkt. Um diese Probleme zu adressieren, schlagen wir die Bidirektionale Evolutionäre Suche (BES) vor, ein Suchframework, das die Vorwärts-Evolution von Kandidaten mit der Rückwärts-Zerlegung von Zielen koppelt. In der Vorwärtssuche ergänzt BES die Standardexpansion um Evolutionsoperatoren, die partielle Trajektorien rekombinieren, um Kandidaten zu generieren, die mit einem einzelnen Modelldurchlauf schwer zu erhalten sind. In der Rückwärtssuche zerlegt BES die ursprüngliche Aufgabe rekursiv in überprüfbare Unterziele und liefert dichtes Zwischenfeedback, das die Vorwärtssuche leitet. Wir liefern eine theoretische Motivation, die zeigt, dass Kandidaten, die durch reine Expansionssuche erzeugt werden, auf eine schmale Entropie-Hülle beschränkt sind, während Evolutionsoperatoren diese verlassen können, und dass die Rückwärtssuche die Anzahl der benötigten Stichproben zur Findung einer korrekten Antwort exponentiell reduzieren kann. Experimente zeigen, dass BES bei anspruchsvollen Aufgaben nach dem Training, bei denen gängige Algorithmen für das Post-Training keine Verbesserung erzielen, konsistente Verbesserungen ermöglicht, und bei drei offenen Problemlösungs-Benchmarks zur Inferenzzeit übertrifft BES bestehende Open-Source-Frameworks sowohl in der durchschnittlichen als auch in der besten Leistung. Code und trainierte Modelle sind verfügbar unter https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.