ChatPaper.aiChatPaper

Entrenamiento de Co-científicos de IA mediante Recompensas Basadas en Rúbricas

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
Autores: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

Resumen

Los co-científicos de IA están surgiendo como una herramienta para ayudar a los investigadores humanos a alcanzar sus objetivos de investigación. Una característica crucial de estos co-científicos de IA es la capacidad de generar un plan de investigación a partir de un conjunto de objetivos y restricciones. Los investigadores pueden utilizar el plan para lluvias de ideas, o incluso implementarlo tras un refinamiento adicional. Sin embargo, los modelos de lenguaje actualmente tienen dificultades para generar planes de investigación que cumplan con todas las restricciones y requisitos implícitos. En este trabajo, estudiamos cómo aprovechar el vasto corpus de artículos de investigación existentes para entrenar modelos de lenguaje que generen mejores planes de investigación. Construimos un corpus de entrenamiento escalable y diverso extrayendo automáticamente objetivos de investigación y rúbricas de evaluación específicas para cada objetivo de artículos de diversos dominios. Luego entrenamos modelos para la generación de planes de investigación mediante aprendizaje por refuerzo con autoevaluación. Una copia congelada de la política inicial actúa como evaluador durante el entrenamiento, creando las rúbricas una brecha generador-verificador que permite mejoras sin supervisión humana externa. Para validar este enfoque, realizamos un estudio con expertos humanos para objetivos de investigación en aprendizaje automático, abarcando 225 horas. Los expertos prefieren los planes generados por nuestro modelo afinado Qwen3-30B-A3B sobre el modelo inicial para el 70% de los objetivos de investigación, y aprueban el 84% de las rúbricas de evaluación específicas extraídas automáticamente. Para evaluar la generalidad, también extendemos nuestro enfoque a objetivos de investigación de artículos médicos y nuevos preprints de arXiv, evaluando con un jurado de modelos de última generación. Nuestro ajuste fino produce mejoras relativas del 12-22% y una generalización cruzada de dominios significativa, demostrando ser eficaz incluso en entornos problemáticos como la investigación médica donde la retroalimentación por ejecución es inviable. En conjunto, estos hallazgos demuestran el potencial de una receta de entrenamiento automatizada y escalable como un paso hacia la mejora de los co-científicos de IA generales.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025