Formazione di Co-Scienziati IA Utilizzando Ricompense Basate su Rubriche

Abstract

Gli assistenti di ricerca IA stanno emergendo come strumenti per supportare i ricercatori umani nel raggiungimento dei propri obiettivi di ricerca. Una caratteristica cruciale di questi co-scienziati IA è la capacità di generare un piano di ricerca dati una serie di obiettivi e vincoli. Il piano può essere utilizzato dai ricercatori per il brainstorming, o potrebbe persino essere implementato dopo un ulteriore affinamento. Tuttavia, i modelli linguistici attualmente faticano a generare piani di ricerca che rispettino tutti i vincoli e i requisiti impliciti. In questo lavoro, studiamo come sfruttare il vasto corpus di articoli di ricerca esistenti per addestrare modelli linguistici che generino piani di ricerca migliori. Costruiamo un corpus di addestramento scalabile e diversificato estraendo automaticamente obiettivi di ricerca e griglie di valutazione specifiche per obiettivo da articoli di diversi ambiti. Addestriamo quindi modelli per la generazione di piani di ricerca tramite apprendimento per rinforzo con autovalutazione. Una copia congelata della politica iniziale funge da valutatore durante l'addestramento, con le griglie che creano un divario generatore-verificatore che consente miglioramenti senza supervisione umana esterna. Per convalidare questo approccio, conduciamo uno studio con esperti umani per obiettivi di ricerca nel machine learning, per un totale di 225 ore. Gli esperti preferiscono i piani generati dal nostro modello messo a punto Qwen3-30B-A3B rispetto al modello iniziale per il 70% degli obiettivi di ricerca e approvano l'84% delle griglie di valutazione specifiche per obiettivo estratte automaticamente. Per valutarne la generalità, estendiamo il nostro approccio anche a obiettivi di ricerca tratti da articoli medici e nuove preprint di arXiv, valutando con una giuria di modelli all'avanguardia. La nostra messa a punto produce miglioramenti relativi del 12-22% e una significativa generalizzazione cross-dominio, dimostrandosi efficace anche in contesti problematici come la ricerca medica dove il feedback di esecuzione è impraticabile. Nel complesso, questi risultati dimostrano il potenziale di una procedura di addestramento automatizzata e scalabile come passo verso il miglioramento dei co-scienziati IA generali.

English

AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.

Formazione di Co-Scienziati IA Utilizzando Ricompense Basate su Rubriche

Training AI Co-Scientists Using Rubric Rewards

Abstract

Support