ChatPaper.aiChatPaper

Treinando Co-Cientistas de IA Usando Recompensas Baseadas em Rúbricas

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
Autores: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

Resumo

Os co-cientistas de IA estão surgindo como uma ferramenta para auxiliar pesquisadores humanos a alcançar seus objetivos de pesquisa. Uma característica crucial desses co-cientistas de IA é a capacidade de gerar um plano de pesquisa a partir de um conjunto de objetivos e restrições. O plano pode ser utilizado pelos pesquisadores para brainstorming, ou pode até mesmo ser implementado após refinamentos adicionais. No entanto, os modelos de linguagem atualmente têm dificuldade em gerar planos de pesquisa que sigam todas as restrições e requisitos implícitos. Neste trabalho, estudamos como aproveitar o vasto corpus de artigos de pesquisa existentes para treinar modelos de linguagem que gerem melhores planos de pesquisa. Construímos um corpus de treinamento escalável e diversificado extraindo automaticamente objetivos de pesquisa e rubricas de avaliação específicas para cada objetivo a partir de artigos de várias áreas. Em seguida, treinamos modelos para geração de planos de pesquisa via aprendizado por reforço com autoavaliação. Uma cópia congelada da política inicial atua como avaliadora durante o treinamento, com as rubricas criando uma lacuna entre gerador e verificador que permite melhorias sem supervisão humana externa. Para validar essa abordagem, realizamos um estudo com especialistas humanos para objetivos de pesquisa em aprendizado de máquina, abrangendo 225 horas. Os especialistas preferem os planos gerados pelo nosso modelo afinado Qwen3-30B-A3B em relação ao modelo inicial para 70% dos objetivos de pesquisa e aprovam 84% das rubricas de avaliação específicas para objetivos extraídas automaticamente. Para avaliar a generalidade, também estendemos nossa abordagem para objetivos de pesquisa de artigos médicos e novas preprints do arXiv, avaliando com um júri de modelos de fronteira. Nosso afinamento produz melhorias relativas de 12-22% e uma generalização significativa entre domínios, mostrando-se eficaz mesmo em contextos problemáticos como a pesquisa médica, onde o feedback de execução é inviável. Juntos, esses resultados demonstram o potencial de uma receita de treinamento automatizada e escalável como um passo para melhorar os co-cientistas de IA gerais.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF213March 11, 2026