MedAgentGym: Treinando Agentes de LLM para Raciocínio Médico Baseado em Código em Escala
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Autores: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Resumo
Apresentamos o MedAgentGYM, o primeiro ambiente de treinamento publicamente disponível projetado para aprimorar as capacidades de raciocínio médico baseado em codificação em agentes de modelos de linguagem de grande escala (LLM). O MedAgentGYM compreende 72.413 instâncias de tarefas em 129 categorias derivadas de cenários biomédicos autênticos do mundo real. As tarefas são encapsuladas em ambientes de codificação executáveis, cada um contendo descrições detalhadas das tarefas, mecanismos de feedback interativo, anotações de verdade verificáveis e geração escalável de trajetórias de treinamento. Um extenso benchmarking de mais de 30 LLMs revela uma disparidade significativa de desempenho entre modelos baseados em APIs comerciais e suas contrapartes de código aberto. Utilizando o MedAgentGYM, o Med-Copilot-7B alcança ganhos substanciais de desempenho por meio de ajuste fino supervisionado (+36,44%) e aprendizado por reforço contínuo (+42,47%), emergindo como uma alternativa acessível e que preserva a privacidade, competitiva com o gpt-4. Ao oferecer tanto um benchmark abrangente quanto recursos de treinamento acessíveis e expansíveis em ambientes de execução unificados, o MedAgentGYM fornece uma plataforma integrada para desenvolver assistentes de codificação baseados em LLM para pesquisa e prática biomédica avançada.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.