Modelos de Linguagem Auto-Melhorados com Busca Evolucionária Bidirecional

Resumo

A busca tem sido proposta como um método eficaz para modelos de linguagem e sistemas agentivos que se autoaprimoram, tanto para geração de amostras em pós-treinamento quanto para inferência. No entanto, métodos amplamente utilizados, como a amostragem de melhor de N e a busca em árvore, enfrentam duas limitações fundamentais: são guiados por sinais de verificação esparsos e constroem candidatos principalmente por meio de expansão autorregressiva, restringindo a exploração a regiões com massa de probabilidade substancial do modelo. Para lidar com essas questões, propomos o Busca Evolutiva Bidirecional (BES), um arcabouço de busca que acopla a evolução direta de candidatos com a decomposição reversa de objetivos. Na busca direta, o BES aumenta a expansão padrão com operadores evolutivos que recombinam trajetórias parciais para gerar candidatos difíceis de obter a partir de um único rollout do modelo. Na busca reversa, o BES decompõe recursivamente a tarefa original em subobjetivos verificáveis, produzindo feedback intermediário denso que orienta a busca direta. Fornecemos motivação teórica mostrando que candidatos gerados apenas por expansão estão confinados a uma casca de entropia estreita, enquanto operadores evolutivos podem escapar dela, e que a busca reversa pode reduzir exponencialmente o número de amostras necessárias para encontrar uma resposta correta. Experimentos mostram que, em tarefas desafiadoras de pós-treinamento onde algoritmos tradicionais de pós-treinamento não conseguem melhorar, o BES proporciona ganhos consistentes; e, em três referenciais de resolução de problemas abertos em tempo de inferência, o BES supera arcabouços de código aberto existentes tanto no desempenho médio quanto no de melhor caso. O código e os modelos treinados estão disponíveis em https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.