Самоулучшающиеся языковые модели с двунаправленным эволюционным поиском

Аннотация

Поиск был предложен как эффективный метод для самоулучшающихся языковых моделей и агентных систем как для генерации примеров после обучения, так и для инференса. Однако широко используемые методы, такие как best-of-N сэмплирование и поиск по дереву, имеют два фундаментальных ограничения: они направляются разреженными сигналами верификации и формируют кандидаты преимущественно за счёт авторегрессионного расширения, что ограничивает исследование областями со значительной вероятностной массой модели. Для преодоления этих ограничений предлагается двунаправленный эволюционный поиск (BES) — фреймворк поиска, объединяющий прямую эволюцию кандидатов с обратной декомпозицией целей. На этапе прямого поиска BES дополняет стандартное расширение эволюционными операторами, которые рекомбинируют частичные траектории для генерации кандидатов, трудно достижимых при одиночном прогоне модели. На этапе обратного поиска BES рекурсивно разлагает исходную задачу на проверяемые подцели, обеспечивая плотную промежуточную обратную связь, направляющую прямой поиск. Приводится теоретическое обоснование, показывающее, что кандидаты, генерируемые поиском только за счёт расширения, ограничены узкой энтропийной оболочкой, тогда как эволюционные операторы могут её покинуть, а обратный поиск способен экспоненциально сократить количество образцов, необходимых для нахождения правильного ответа. Эксперименты показывают, что на сложных задачах после обучения, где основные алгоритмы пост-обучения не дают улучшений, BES обеспечивает устойчивый прирост, а на трёх открытых бенчмарках решения задач во время инференса BES превосходит существующие open-source фреймворки как по средней, так и по наилучшей производительности. Код и обученные модели доступны по адресу https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.