MedAgentGym: Масштабируемое обучение агентов на основе языковых моделей для медицинского анализа с использованием кода
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Авторы: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Аннотация
Мы представляем MedAgentGYM — первую общедоступную обучающую среду, разработанную для улучшения способностей к медицинскому рассуждению на основе программирования у агентов на базе больших языковых моделей (LLM). MedAgentGYM включает 72 413 задач, распределенных по 129 категориям, основанным на реальных биомедицинских сценариях. Задачи инкапсулированы в исполняемые программные среды, каждая из которых содержит подробные описания задач, интерактивные механизмы обратной связи, проверяемые эталонные аннотации и масштабируемую генерацию обучающих траекторий. Обширное тестирование более 30 LLM выявило значительный разрыв в производительности между коммерческими моделями на основе API и их открытыми аналогами. Используя MedAgentGYM, модель Med-Copilot-7B демонстрирует существенное улучшение производительности благодаря контролируемому тонкому обучению (+36,44%) и продолженному обучению с подкреплением (+42,47%), становясь доступной и обеспечивающей конфиденциальность альтернативой, конкурентоспособной с gpt-4o. Предлагая как всеобъемлющий бенчмарк, так и доступные, расширяемые обучающие ресурсы в рамках унифицированных исполняемых сред, MedAgentGYM предоставляет интегрированную платформу для разработки LLM-ассистентов на основе программирования для передовых биомедицинских исследований и практики.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.