ChatPaper.aiChatPaper

Training KI-Co-Wissenschaftler mit Rubric-Belohnungen

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
papers.authors: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

papers.abstract

KI-Co-Wissenschaftler entwickeln sich zunehmlich als Werkzeug zur Unterstützung menschlicher Forscher bei der Erreichung ihrer Forschungsziele. Ein entscheidendes Merkmal dieser KI-Co-Wissenschaftler ist die Fähigkeit, einen Forschungsplan auf der Grundlage gegebener Zielsetzungen und Randbedingungen zu generieren. Der Plan kann von Forschern zur Ideenfindung genutzt werden oder nach weiterer Verfeinerung sogar umgesetzt werden. Derzeit haben Sprachmodelle jedoch noch Schwierigkeiten, Forschungspläne zu generieren, die alle Randbedingungen und impliziten Anforderungen erfüllen. In dieser Arbeit untersuchen wir, wie der umfangreiche Korpus bestehender Forschungsarbeiten genutzt werden kann, um Sprachmodelle zu trainieren, die bessere Forschungspläne generieren. Wir erstellen einen skalierbaren, diversen Trainingskorpus, indem wir automatisch Forschungsziele und zielspezifische Bewertungsraster aus Publikationen verschiedener Domänen extrahieren. Anschließend trainieren wir Modelle zur Forschungsplangenerierung mittels Reinforcement Learning mit Selbstbewertung. Eine eingefrorene Kopie der initialen Policy fungiert während des Trainings als Bewerter, wobei die Bewertungsraster eine Generator-Verifizierer-Lücke schaffen, die Verbesserungen ohne externe menschliche Aufsicht ermöglicht. Zur Validierung dieses Ansatzes führen wir eine Studie mit menschlichen Experten für Forschungsziele im Bereich Maschinelles Lernen durch, die 225 Stunden umfasst. Die Experten bevorzugen für 70 % der Forschungsziele die von unserem feinabgestimmten Qwen3-30B-A3B-Modell generierten Pläne gegenüber denen des Ausgangsmodells und billigen 84 % der automatisch extrahierten zielspezifischen Bewertungsraster. Um die Allgemeingültigkeit zu bewerten, erweitern wir unseren Ansatz auch auf Forschungsziele aus medizinischen Publikationen und neuen arXiv-Preprints, wobei die Evaluation durch ein Gremium von Frontier-Modellen erfolgt. Unsere Feinabstimmung führt zu relativen Verbesserungen von 12–22 % und signifikanter domänenübergreifender Generalisierung, was sich selbst in Problemszenarien wie der medizinischen Forschung, wo eine Umsetzungsrückmeldung undurchführbar ist, als wirksam erweist. Zusammengenommen demonstrieren diese Ergebnisse das Potenzial eines skalierbaren, automatisierten Trainingsverfahrens als Schritt zur Verbesserung allgemeiner KI-Co-Wissenschaftler.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025