ChatPaper.aiChatPaper

MedAgentGym: Масштабируемое обучение агентов на основе языковых моделей для медицинского анализа с использованием кода

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

June 4, 2025
Авторы: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI

Аннотация

Мы представляем MedAgentGYM — первую общедоступную обучающую среду, разработанную для улучшения способностей к медицинскому рассуждению на основе программирования у агентов на базе больших языковых моделей (LLM). MedAgentGYM включает 72 413 задач, распределенных по 129 категориям, основанным на реальных биомедицинских сценариях. Задачи инкапсулированы в исполняемые программные среды, каждая из которых содержит подробные описания задач, интерактивные механизмы обратной связи, проверяемые эталонные аннотации и масштабируемую генерацию обучающих траекторий. Обширное тестирование более 30 LLM выявило значительный разрыв в производительности между коммерческими моделями на основе API и их открытыми аналогами. Используя MedAgentGYM, модель Med-Copilot-7B демонстрирует существенное улучшение производительности благодаря контролируемому тонкому обучению (+36,44%) и продолженному обучению с подкреплением (+42,47%), становясь доступной и обеспечивающей конфиденциальность альтернативой, конкурентоспособной с gpt-4o. Предлагая как всеобъемлющий бенчмарк, так и доступные, расширяемые обучающие ресурсы в рамках унифицированных исполняемых сред, MedAgentGYM предоставляет интегрированную платформу для разработки LLM-ассистентов на основе программирования для передовых биомедицинских исследований и практики.
English
We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.
PDF41June 6, 2025