MedAgentGym: Масштабируемое обучение агентов на основе языковых моделей для медицинского анализа с использованием кода

Аннотация

Мы представляем MedAgentGYM — первую общедоступную обучающую среду, разработанную для улучшения способностей к медицинскому рассуждению на основе программирования у агентов на базе больших языковых моделей (LLM). MedAgentGYM включает 72 413 задач, распределенных по 129 категориям, основанным на реальных биомедицинских сценариях. Задачи инкапсулированы в исполняемые программные среды, каждая из которых содержит подробные описания задач, интерактивные механизмы обратной связи, проверяемые эталонные аннотации и масштабируемую генерацию обучающих траекторий. Обширное тестирование более 30 LLM выявило значительный разрыв в производительности между коммерческими моделями на основе API и их открытыми аналогами. Используя MedAgentGYM, модель Med-Copilot-7B демонстрирует существенное улучшение производительности благодаря контролируемому тонкому обучению (+36,44%) и продолженному обучению с подкреплением (+42,47%), становясь доступной и обеспечивающей конфиденциальность альтернативой, конкурентоспособной с gpt-4o. Предлагая как всеобъемлющий бенчмарк, так и доступные, расширяемые обучающие ресурсы в рамках унифицированных исполняемых сред, MedAgentGYM предоставляет интегрированную платформу для разработки LLM-ассистентов на основе программирования для передовых биомедицинских исследований и практики.

English

We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.

MedAgentGym: Масштабируемое обучение агентов на основе языковых моделей для медицинского анализа с использованием кода

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Аннотация

Support