주니어 AI 과학자와 그 위험 보고서: 기준 논문으로부터의 자율적 과학 탐구
Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper
November 6, 2025
저자: Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa
cs.AI
초록
AI 과학자 시스템의 현재 역량과 위험성을 이해하는 것은 학술 생태계의 무결성을 보존하면서도 신뢰할 수 있고 지속 가능한 AI 주도 과학 발전을 보장하기 위해 필수적입니다. 이를 위해 우리는 초보 학생 연구자의 핵심 연구 워크플로를 모방하는 최첨단 자율 AI 과학자 시스템인 Jr. AI Scientist를 개발했습니다. 이 시스템은 인간 멘토의 기준 논문을 바탕으로 그 한계를 분석하고, 개선을 위한 새로운 가설을 수립하며, 엄격한 실험을 통해 이를 검증하고, 결과를 담은 논문을 작성합니다. 완전 자동화를 전제로 하거나 소규모 코드에서 작동하는 기존 접근법과 달리, Jr. AI Scientist는 명확히 정의된 연구 워크플로를 따르고 현대적인 코딩 에이전트를 활용하여 복잡한 다중 파일 구현을 처리함으로써 과학적으로 가치 있는 기여를 이끌어냅니다. 평가를 위해 우리는 AI 리뷰어를 이용한 자동 평가, 저자 주도 평가, 그리고 AI 주도 과학 기여를 위한 플랫폼인 Agents4Science에의 논문 제출을 진행했습니다. 결과는 Jr. AI Scientist가 생성한 논문이 기존 완전 자동화 시스템들보다 높은 심사 점수를 받는 것을 보여줍니다. 그럼에도 불구하고, 저자 평가와 Agents4Science 리뷰 모두에서 중요한 한계점이 확인되어 현재의 AI 과학자 시스템을 직접 적용할 때의 잠재적 위험과 향후 연구를 위한 핵심 과제를 시사합니다. 마지막으로, 우리는 개발 과정에서 확인된 다양한 위험 요소들을 포괄적으로 보고합니다. 이러한 통찰이 AI 과학자 개발의 현재 진척 상황과 위험에 대한 이해를 심화시키길 바랍니다.
English
Understanding the current capabilities and risks of AI Scientist systems is
essential for ensuring trustworthy and sustainable AI-driven scientific
progress while preserving the integrity of the academic ecosystem. To this end,
we develop Jr. AI Scientist, a state-of-the-art autonomous AI scientist system
that mimics the core research workflow of a novice student researcher: Given
the baseline paper from the human mentor, it analyzes its limitations,
formulates novel hypotheses for improvement, validates them through rigorous
experimentation, and writes a paper with the results. Unlike previous
approaches that assume full automation or operate on small-scale code, Jr. AI
Scientist follows a well-defined research workflow and leverages modern coding
agents to handle complex, multi-file implementations, leading to scientifically
valuable contributions. For evaluation, we conducted automated assessments
using AI Reviewers, author-led evaluations, and submissions to Agents4Science,
a venue dedicated to AI-driven scientific contributions. The findings
demonstrate that Jr. AI Scientist generates papers receiving higher review
scores than existing fully automated systems. Nevertheless, we identify
important limitations from both the author evaluation and the Agents4Science
reviews, indicating the potential risks of directly applying current AI
Scientist systems and key challenges for future research. Finally, we
comprehensively report various risks identified during development. We hope
these insights will deepen understanding of current progress and risks in AI
Scientist development.