AlphaResearch: 言語モデルによる新規アルゴリズム発見の加速
AlphaResearch: Accelerating New Algorithm Discovery with Language Models
November 11, 2025
著者: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan
cs.AI
要旨
大規模言語モデルは、複雑だが検証が容易な問題では著しい進歩を遂げているものの、未知の領域を発見する能力には依然として課題を残している。本論文では、未解決問題に対する新たなアルゴリズム発見を目的とした自律的研究エージェント「AlphaResearch」を提案する。発見プロセスの実現可能性と革新性を両立させるため、実行ベースの検証環境と模擬的な実世界の査読環境を組み合わせた新規の二重研究環境を構築した。AlphaResearchは以下のステップを反復的に実行して新アルゴリズムを発見する:(1)新たなアイデアの提案 (2)二重研究環境におけるアイデアの検証 (3)高性能化のための研究提案の最適化。透明性の高い評価プロセスを促進するため、実行可能なパイプライン・客観的指標・再現性検証を経て厳選された8つの未解決アルゴリズム問題コンペティションを含む新規評価ベンチマーク「AlphaResearchComp」を構築した。AlphaResearchは人間の研究者との直接比較で2/8の勝率を達成し、LLMによるアルゴリズム発見の加速可能性を示した。特に「円充填問題」で発見されたアルゴリズムは、人間の研究者や既存研究(AlphaEvolveなど)の強力なベースラインを凌駕し、既知の最高性能を達成した。さらに、6/8の失敗事例に関する包括的分析を実施し、将来の研究に向けた貴重な知見を提供する。
English
Large language models have made significant progress in complex but easy-to-verify problems, yet they still struggle with discovering the unknown. In this paper, we present AlphaResearch, an autonomous research agent designed to discover new algorithms on open-ended problems. To synergize the feasibility and innovation of the discovery process, we construct a novel dual research environment by combining the execution-based verify and simulated real-world peer review environment. AlphaResearch discovers new algorithm by iteratively running the following steps: (1) propose new ideas (2) verify the ideas in the dual research environment (3) optimize the research proposals for better performance. To promote a transparent evaluation process, we construct AlphaResearchComp, a new evaluation benchmark that includes an eight open-ended algorithmic problems competition, with each problem carefully curated and verified through executable pipelines, objective metrics, and reproducibility checks. AlphaResearch gets a 2/8 win rate in head-to-head comparison with human researchers, demonstrate the possibility of accelerating algorithm discovery with LLMs. Notably, the algorithm discovered by AlphaResearch on the ``packing circles'' problem achieves the best-of-known performance, surpassing the results of human researchers and strong baselines from recent work (e.g., AlphaEvolve). Additionally, we conduct a comprehensive analysis of the remaining challenges of the 6/8 failure cases, providing valuable insights for future research.