ChatPaper.aiChatPaper

ルーブリック報酬を用いたAI共同科学者の育成

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
著者: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

要旨

AI共同研究者は、人間の研究者が研究目標を達成するのを支援するツールとして登場しつつある。これらのAI共同研究者の重要な特徴は、与えられた目標と制約条件に基づいて研究計画を生成する能力である。生成された計画は研究者によるブレインストーミングに利用されるか、さらなる洗練を経て実行に移される可能性がある。しかし、現在の言語モデルは、すべての制約条件と暗黙的な要件を満たす研究計画の生成に苦戦している。本研究では、既存の研究論文の膨大なコーパスを活用し、より優れた研究計画を生成する言語モデルを訓練する方法を探る。複数分野にわたる論文から研究目標と目標特化型評価基準を自動抽出することで、スケーラブルで多様な訓練コーパスを構築する。その後、自己採点による強化学習を用いて研究計画生成のためのモデルを訓練する。訓練中は初期方策の凍結コピーが採点者として機能し、評価基準が生成者と検証者の間にギャップを生み出すことで、外部の人間の監督なしに改善を可能にする。このアプローチを検証するため、機械学習の研究目標を対象に225時間に及ぶ人間の専門家による評価を実施した。専門家は、研究目標の70%において、微調整したQwen3-30B-A3Bモデルが生成した計画を初期モデルより好み、自動抽出された目標特化型評価基準の84%を承認した。一般性を評価するため、医学論文や新規arXivプレプリントからの研究目標にもアプローチを拡張し、フロンティアモデルによる審査員団で評価した。微調整により12-22%の相対的改善と有意な分野横断的な一般化が達成され、実行フィードバックが得られない医学研究のような問題設定でも有効であることが証明された。これらの知見は、スケーラブルで自動化された訓練手法の可能性を示し、汎用AI共同研究者の改善に向けた一歩となる。
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025