AlphaResearch: Acelerando a Descoberta de Novos Algoritmos com Modelos de Linguagem

Resumo

Os grandes modelos de linguagem têm feito progressos significativos em problemas complexos, mas de fácil verificação, no entanto, eles ainda lutam para descobrir o desconhecido. Neste artigo, apresentamos o AlphaResearch, um agente de pesquisa autónomo projetado para descobrir novos algoritmos em problemas de natureza aberta. Para sinergizar a viabilidade e a inovação do processo de descoberta, construímos um ambiente de pesquisa dual inovador, combinando a verificação baseada em execução com um ambiente simulado de revisão por pares do mundo real. O AlphaResearch descobre novos algoritmos executando iterativamente os seguintes passos: (1) propor novas ideias, (2) verificar as ideias no ambiente de pesquisa dual e (3) otimizar as propostas de pesquisa para um melhor desempenho. Para promover um processo de avaliação transparente, construímos o AlphaResearchComp, um novo benchmark de avaliação que inclui uma competição com oito problemas algorítmicos abertos, sendo cada problema cuidadosamente selecionado e verificado por meio de pipelines executáveis, métricas objetivas e verificações de reprodutibilidade. O AlphaResearch obtém uma taxa de sucesso de 2/8 em comparação direta com investigadores humanos, demonstrando a possibilidade de acelerar a descoberta de algoritmos com LLMs. Notavelmente, o algoritmo descoberto pelo AlphaResearch no problema do "empacotamento de círculos" atinge o melhor desempenho conhecido, superando os resultados de investigadores humanos e bases de comparação robustas de trabalhos recentes (por exemplo, AlphaEvolve). Adicionalmente, realizamos uma análise abrangente dos desafios remanescentes nos 6/8 casos de insucesso, fornecendo perspetivas valiosas para pesquisas futuras.

English

Large language models have made significant progress in complex but easy-to-verify problems, yet they still struggle with discovering the unknown. In this paper, we present AlphaResearch, an autonomous research agent designed to discover new algorithms on open-ended problems. To synergize the feasibility and innovation of the discovery process, we construct a novel dual research environment by combining the execution-based verify and simulated real-world peer review environment. AlphaResearch discovers new algorithm by iteratively running the following steps: (1) propose new ideas (2) verify the ideas in the dual research environment (3) optimize the research proposals for better performance. To promote a transparent evaluation process, we construct AlphaResearchComp, a new evaluation benchmark that includes an eight open-ended algorithmic problems competition, with each problem carefully curated and verified through executable pipelines, objective metrics, and reproducibility checks. AlphaResearch gets a 2/8 win rate in head-to-head comparison with human researchers, demonstrate the possibility of accelerating algorithm discovery with LLMs. Notably, the algorithm discovered by AlphaResearch on the ``packing circles'' problem achieves the best-of-known performance, surpassing the results of human researchers and strong baselines from recent work (e.g., AlphaEvolve). Additionally, we conduct a comprehensive analysis of the remaining challenges of the 6/8 failure cases, providing valuable insights for future research.