ChatPaper.aiChatPaper

Het Opleiden van AI-Medewetenschappers met Rubric-beloningen

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
Auteurs: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

Samenvatting

AI-co-wetenschappers ontstaan als hulpmiddel om menselijke onderzoekers te helpen hun onderzoeksdoelen te bereiken. Een cruciaal kenmerk van deze AI-co-wetenschappers is het vermogen om een onderzoeksplan te genereren op basis van een reeks doelstellingen en beperkingen. Onderzoekers kunnen het plan gebruiken voor brainstormdoeleinden, of het kan zelfs worden geïmplementeerd na verdere verfijning. Taalmodellen hebben echter momenteel moeite met het genereren van onderzoeksplannen die aan alle beperkingen en impliciete vereisten voldoen. In dit werk bestuderen we hoe we de uitgebreide corpus van bestaande onderzoeksartikelen kunnen benutten om taalmodellen te trainen die betere onderzoeksplannen genereren. We bouwen een schaalbare, diverse trainingscorpus door automatisch onderzoeksdoelen en doelgerichte beoordelingsrubrieken uit artikelen van verschillende domeinen te extraheren. Vervolgens trainen we modellen voor onderzoeksplangeneratie via reinforcement learning met zelfbeoordeling. Een bevroren kopie van het initiële beleid fungeert als beoordelaar tijdens de training, waarbij de rubrieken een generator-verificateurkloof creëren die verbeteringen mogelijk maakt zonder externe menselijke supervisie. Om deze aanpak te valideren, voeren we een studie uit met menselijke experts voor onderzoeksdoelen op het gebied van machine learning, met een totale duur van 225 uur. De experts verkiezen de plannen gegenereerd door ons gefinetunede Qwen3-30B-A3B-model boven het initiële model voor 70% van de onderzoeksdoelen, en keuren 84% van de automatisch geëxtraheerde doelgerichte beoordelingsrubrieken goed. Om de algemeenheid te beoordelen, breiden we onze aanpak ook uit naar onderzoeksdoelen uit medische artikelen en nieuwe arXiv-preprints, en evalueren we met een jury van frontier-modellen. Onze finetuning levert relatieve verbeteringen van 12-22% op en significante generalisatie over domeinen heen, en blijkt zelfs effectief in probleemstellingen zoals medisch onderzoek waar uitvoeringsfeedback niet haalbaar is. Samen tonen deze bevindingen het potentieel aan van een schaalbare, geautomatiseerde trainingsmethode als een stap naar het verbeteren van algemene AI-co-wetenschappers.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025