DeepScientist: 과학적 발견의 최전선을 앞당기다 점진적으로
DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively
September 30, 2025
저자: Yixuan Weng, Minjun Zhu, Qiujie Xie, Qiyao Sun, Zhen Lin, Sifan Liu, Yue Zhang
cs.AI
초록
기존의 AI 과학자 시스템들은 새로운 발견을 생성할 수 있지만, 종종 인간이 정의한 시급한 문제를 해결할 만큼 과학적으로 가치 있는 기여를 집중적으로 생산하지 못하는 경우가 많습니다. 우리는 이러한 한계를 극복하기 위해 목표 지향적이고 완전히 자율적인 과학적 발견을 장기간에 걸쳐 수행하는 DeepScientist 시스템을 소개합니다. 이 시스템은 발견을 베이지안 최적화 문제로 공식화하며, "가설 설정, 검증, 분석"으로 구성된 계층적 평가 프로세스를 통해 이를 실행합니다. 누적된 발견 메모리를 활용하여 이 루프는 새로운 가설 탐색과 기존 발견 활용을 지능적으로 균형 있게 조절하며, 가장 유망한 발견을 더 높은 정확도의 검증 단계로 선택적으로 승격시킵니다. 20,000 GPU 시간 이상을 소비한 이 시스템은 약 5,000개의 독창적인 과학적 아이디어를 생성하고 그 중 약 1,100개를 실험적으로 검증했으며, 결국 세 가지 첨단 AI 작업에서 인간이 설계한 최신 기술(SOTA) 방법을 각각 183.7%, 1.9%, 7.9% 능가했습니다. 이 연구는 AI가 과학적 작업에서 인간의 최신 기술을 점진적으로 능가하는 발견을 달성했다는 첫 번째 대규모 증거를 제공하며, 과학적 발견의 최전선을 진정으로 앞당기는 가치 있는 발견을 생산했습니다. 이 과정에 대한 추가 연구를 촉진하기 위해 모든 실험 로그와 시스템 코드를 https://github.com/ResearAI/DeepScientist/에서 오픈소스로 공개할 예정입니다.
English
While previous AI Scientist systems can generate novel findings, they often
lack the focus to produce scientifically valuable contributions that address
pressing human-defined challenges. We introduce DeepScientist, a system
designed to overcome this by conducting goal-oriented, fully autonomous
scientific discovery over month-long timelines. It formalizes discovery as a
Bayesian Optimization problem, operationalized through a hierarchical
evaluation process consisting of "hypothesize, verify, and analyze". Leveraging
a cumulative Findings Memory, this loop intelligently balances the exploration
of novel hypotheses with exploitation, selectively promoting the most promising
findings to higher-fidelity levels of validation. Consuming over 20,000 GPU
hours, the system generated about 5,000 unique scientific ideas and
experimentally validated approximately 1100 of them, ultimately surpassing
human-designed state-of-the-art (SOTA) methods on three frontier AI tasks by
183.7\%, 1.9\%, and 7.9\%. This work provides the first large-scale evidence of
an AI achieving discoveries that progressively surpass human SOTA on scientific
tasks, producing valuable findings that genuinely push the frontier of
scientific discovery. To facilitate further research into this process, we will
open-source all experimental logs and system code at
https://github.com/ResearAI/DeepScientist/.