Modelos de Lenguaje con Automejora mediante Búsqueda Evolutiva Bidireccional

Resumen

La búsqueda se ha propuesto como un método eficaz para modelos de lenguaje y sistemas agentivos que se automejoran, tanto para la generación de muestras en el post-entrenamiento como para la inferencia. Sin embargo, métodos ampliamente utilizados como el muestreo best-of-N y la búsqueda en árbol presentan dos limitaciones fundamentales: están guiados por señales de verificación dispersas y construyen candidatos principalmente mediante expansión autorregresiva, lo que restringe la exploración a regiones con una masa de probabilidad sustancial del modelo. Para abordar esto, proponemos la Búsqueda Evolutiva Bidireccional (BES, por sus siglas en inglés), un marco de búsqueda que combina la evolución directa de candidatos con la descomposición inversa de objetivos. En la búsqueda hacia adelante, BES aumenta la expansión estándar con operadores evolutivos que recombinan trayectorias parciales para generar candidatos difíciles de obtener mediante una sola ejecución del modelo. En la búsqueda hacia atrás, BES descompone recursivamente la tarea original en subobjetivos verificables, produciendo retroalimentación intermedia densa que guía la búsqueda hacia adelante. Proporcionamos una motivación teórica que muestra que los candidatos generados únicamente mediante expansión se limitan a una capa de entropía estrecha, mientras que los operadores evolutivos pueden escapar de ella, y que la búsqueda hacia atrás puede reducir exponencialmente el número de muestras necesarias para encontrar una respuesta correcta. Los experimentos muestran que en tareas desafiantes de post-entrenamiento donde los algoritmos convencionales de post-entrenamiento no logran mejorar, BES permite ganancias consistentes, y en tres conjuntos de problemas abiertos de razonamiento en inferencia, BES supera a los marcos de código abierto existentes tanto en rendimiento promedio como en el mejor caso. El código y los modelos entrenados están disponibles en https://github.com/Embodied-Minds-Lab/BES.

English

Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.