MedAgentGym: Treinando Agentes de LLM para Raciocínio Médico Baseado em Código em Escala

Resumo

Apresentamos o MedAgentGYM, o primeiro ambiente de treinamento publicamente disponível projetado para aprimorar as capacidades de raciocínio médico baseado em codificação em agentes de modelos de linguagem de grande escala (LLM). O MedAgentGYM compreende 72.413 instâncias de tarefas em 129 categorias derivadas de cenários biomédicos autênticos do mundo real. As tarefas são encapsuladas em ambientes de codificação executáveis, cada um contendo descrições detalhadas das tarefas, mecanismos de feedback interativo, anotações de verdade verificáveis e geração escalável de trajetórias de treinamento. Um extenso benchmarking de mais de 30 LLMs revela uma disparidade significativa de desempenho entre modelos baseados em APIs comerciais e suas contrapartes de código aberto. Utilizando o MedAgentGYM, o Med-Copilot-7B alcança ganhos substanciais de desempenho por meio de ajuste fino supervisionado (+36,44%) e aprendizado por reforço contínuo (+42,47%), emergindo como uma alternativa acessível e que preserva a privacidade, competitiva com o gpt-4. Ao oferecer tanto um benchmark abrangente quanto recursos de treinamento acessíveis e expansíveis em ambientes de execução unificados, o MedAgentGYM fornece uma plataforma integrada para desenvolver assistentes de codificação baseados em LLM para pesquisa e prática biomédica avançada.

English

We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.

MedAgentGym: Treinando Agentes de LLM para Raciocínio Médico Baseado em Código em Escala

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Resumo

Support