ChatPaper.aiChatPaper

Formation de co-scientifiques IA par récompenses basées sur des grilles d'évaluation

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
papers.authors: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

papers.abstract

Les co-scientifiques IA émergent comme un outil pour assister les chercheurs humains dans l'atteinte de leurs objectifs de recherche. Une caractéristique cruciale de ces co-scientifiques IA est la capacité de générer un plan de recherche à partir d'un ensemble d'objectifs et de contraintes. Ce plan peut être utilisé par les chercheurs pour le brainstorming, ou même être mis en œuvre après un raffinement supplémentaire. Cependant, les modèles de langage peinent actuellement à générer des plans de recherche qui respectent toutes les contraintes et exigences implicites. Dans ce travail, nous étudions comment exploiter le vaste corpus d'articles de recherche existants pour entraîner des modèles de langage qui génèrent de meilleurs plans de recherche. Nous construisons un corpus d'entraînement diversifié et évolutif en extrayant automatiquement les objectifs de recherche et des grilles d'évaluation spécifiques aux objectifs à partir d'articles couvrant plusieurs domaines. Nous entraînons ensuite des modèles pour la génération de plans de recherche via l'apprentissage par renforcement avec auto-évaluation. Une copie figée de la politique initiale agit comme évaluateur pendant l'entraînement, les grilles créant un écart générateur-vérificateur qui permet des améliorations sans supervision humaine externe. Pour valider cette approche, nous menons une étude avec des experts humains sur des objectifs de recherche en apprentissage automatique, totalisant 225 heures. Les experts préfèrent les plans générés par notre modèle Qwen3-30B-A3B affiné à ceux du modèle initial pour 70 % des objectifs de recherche, et approuvent 84 % des grilles d'évaluation spécifiques aux objectifs extraites automatiquement. Pour évaluer la généralité, nous étendons également notre approche à des objectifs de recherche issus d'articles médicaux et de nouvelles prépublications arXiv, en évaluant avec un jury de modèles frontaliers. Notre affinage produit des améliorations relatives de 12 à 22 % et une généralisation inter-domaines significative, s'avérant efficace même dans des contextes problématiques comme la recherche médicale où la rétroaction d'exécution est impossible. Ensemble, ces résultats démontrent le potentiel d'une méthode d'entraînement automatisée et évolutive comme une étape vers l'amélioration des co-scientifiques IA généraux.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025