ChatPaper.aiChatPaper

Обучение ИИ-ассистентов ученых с использованием рубричных вознаграждений

Training AI Co-Scientists Using Rubric Rewards

December 29, 2025
Авторы: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse
cs.AI

Аннотация

Искусственные интеллекты-научные сотрудники появляются как инструмент для помощи исследователям в достижении их научных целей. Ключевой особенностью таких ИИ-сотрудников является способность генерировать план исследований на основе заданных целей и ограничений. Этот план может использоваться исследователями для мозгового штурма или даже быть реализован после дальнейшей доработки. Однако современные языковые модели пока с трудом создают исследовательские планы, полностью соответствующие всем ограничениям и неявным требованиям. В данной работе мы исследуем, как использовать обширный корпус существующих научных статей для обучения языковых моделей, генерирующих более качественные исследовательские планы. Мы создаем масштабируемый, разнообразный обучающий корпус путем автоматического извлечения исследовательских целей и предметно-ориентированных оценочных критериев из статей различных областей. Затем мы обучаем модели для генерации исследовательских планов с помощью обучения с подкреплением и самооценки. Замороженная копия исходной политики выступает в роли оценщика во время обучения, а критерии создают разрыв между генератором и верификатором, что позволяет добиваться улучшений без внешнего человеческого контроля. Для проверки этого подхода мы провели исследование с участием экспертов по целям машинного обучения, общее время которого составило 225 часов. Эксперты предпочли планы, сгенерированные нашей дообученной моделью Qwen3-30B-A3B, планам исходной модели для 70% исследовательских целей и одобрили 84% автоматически извлеченных предметно-ориентированных оценочных критериев. Для оценки общности подхода мы также распространили его на исследовательские цели из медицинских статей и новых препринтов arXiv, проведя оценку с помощью жюри из фронтирных моделей. Наше дообучение дает относительное улучшение на 12-22% и значительную междисциплинарную генерализацию, демонстрируя эффективность даже в таких областях, как медицинские исследования, где обратная связь по выполнению недоступна. В совокупности эти результаты демонстрируют потенциал масштабируемого автоматизированного подхода к обучению как шага на пути к улучшению общих ИИ-научных сотрудников.
English
AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
PDF121December 31, 2025