Доктор Тулу: Обучение с подкреплением с эволюционирующими рубриками для глубоких исследований
DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
November 24, 2025
Авторы: Rulin Shao, Akari Asai, Shannon Zejiang Shen, Hamish Ivison, Varsha Kishore, Jingming Zhuo, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
Аннотация
Глубокие исследовательские модели выполняют многошаговое исследование для генерации развернутых, хорошо аргументированных ответов. Однако большинство открытых глубоких исследовательских моделей обучаются на легко проверяемых задачах кратких вопросов-ответов с помощью обучения с подкреплением с проверяемыми вознаграждениями (RLVR), что не распространяется на реалистичные задачи с длинными ответами. Мы решаем эту проблему с помощью Обучения с подкреплением с эволюционирующими рубриками (RLER), в рамках которого мы создаем и поддерживаем рубрики, коэволюционирующие с политикой модели в процессе обучения; это позволяет рубрикам включать информацию, недавно исследованную моделью, и предоставлять дискриминативную обратную связь на основе текущей политики. Используя RLER, мы разработали Deep Research Tulu (DR Tulu-8B) — первую открытую модель, непосредственно обученную для открытого глубокого исследования с длинными ответами. На четырех benchmarks глубокого исследования с длинными ответами в областях науки, здравоохранения и общего назначения DR Tulu существенно превосходит существующие открытые глубокие исследовательские модели и соответствует или превосходит проприетарные системы глубокого исследования, будучи при этом значительно меньше и дешевле в расчете на запрос. Для содействия будущим исследованиям мы публикуем все данные, модели и код, включая нашу новую агентскую инфраструктуру на основе MCP для систем глубокого исследования.
English
Deep research models perform multi-step research to produce long-form, well-attributed answers. However, most open deep research models are trained on easily verifiable short-form QA tasks via reinforcement learning with verifiable rewards (RLVR), which does not extend to realistic long-form tasks. We address this with Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training; this allows the rubrics to incorporate information that the model has newly explored and to provide discriminative, on-policy feedback. Using RLER, we develop Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research. Across four long-form deep research benchmarks in science, healthcare and general domains, DR Tulu substantially outperforms existing open deep research models, and matches or exceeds proprietary deep research systems, while being significantly smaller and cheaper per query. To facilitate future research, we release all data, models, and code, including our new MCP-based agent infrastructure for deep research systems.