ChatPaper.aiChatPaper

루브릭 보상을 활용한 AI 공동 과학자 훈련

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
저자: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

초록

인공지능 공동 과학자(AI co-scientists)는 인간 연구자들이 연구 목표를 달성하는 것을 지원하는 도구로 부상하고 있습니다. 이러한 AI 공동 과학자의 핵심 기능은 주어진 목표와 제약 조건을 바탕으로 연구 계획을 생성하는 능력입니다. 생성된 계획은 연구자들이 브레인스토밍을 하거나 추가 정제를 거쳐 실행에 옮길 수도 있습니다. 그러나 현재 언어 모델은 모든 제약 조건과 암묵적 요구 사항을 따르는 연구 계획을 생성하는 데 어려움을 겪고 있습니다. 본 연구에서는 기존 연구 논문의 방대한 자료를 활용하여 더 나은 연구 계획을 생성하는 언어 모델을 훈련시키는 방법을 탐구합니다. 여러 분야의 논문에서 연구 목표와 목표별 평가 기준(rubrics)을 자동으로 추출하여 확장성 있고 다양한 훈련 말뭉치를 구축합니다. 그런 다음 자기 평가(self-grading)를 통한 강화 학습으로 연구 계획 생성을 위한 모델을 훈련시킵니다. 훈련 과정에서 초기 정책의 고정된 사본이 채점자 역할을 하며, 평가 기준은 외부 인간 감독 없이도 개선을 가능하게 하는 생성기-검증기 간극(generator-verifier gap)을 생성합니다. 이 접근법을 검증하기 위해 기계학습 연구 목표를 대상으로 전문가들을 통한 연구(총 225시간 소요)를 수행했습니다. 전문가들은 연구 목표의 70%에 대해 미세 조정된 Qwen3-30B-A3B 모델이 생성한 계획을 초기 모델의 계획보다 선호했으며, 자동 추출된 목표별 평가 기준의 84%를 승인했습니다. 일반성을 평가하기 위해 의학 논문 및 새로운 arXiv 프리프린트의 연구 목표로 접근법을 확장하고, 프론티어 모델들을 심사 위원단으로 활용하여 평가했습니다. 우리의 미세 조정은 12-22%의 상대적 개선과 의미 있는 교차 도메인 일반화를 이루었으며, 실행 피드백을 얻기 어려운 의학 연구와 같은 문제 설정에서도 효과적임을 입증했습니다. 이러한 결과들은 함께, 확장 가능하고 자동화된 훈련 방법이 일반적인 AI 공동 과학자 개선을 위한 한 걸음으로서의 잠재력을 보여줍니다.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025