MedAgentGym: Entrenamiento de Agentes LLM para Razonamiento Médico Basado en Código a Gran Escala

Resumen

Presentamos MedAgentGYM, el primer entorno de entrenamiento disponible públicamente diseñado para mejorar las capacidades de razonamiento médico basado en codificación en agentes de modelos de lenguaje de gran escala (LLM). MedAgentGYM comprende 72,413 instancias de tareas distribuidas en 129 categorías derivadas de escenarios biomédicos auténticos del mundo real. Las tareas están encapsuladas en entornos de codificación ejecutables, cada uno con descripciones detalladas de las tareas, mecanismos de retroalimentación interactiva, anotaciones verificables de referencia y generación escalable de trayectorias de entrenamiento. Un extenso benchmarking de más de 30 LLM revela una notable disparidad de rendimiento entre los modelos basados en API comerciales y sus contrapartes de código abierto. Al aprovechar MedAgentGYM, Med-Copilot-7B logra mejoras sustanciales en el rendimiento mediante ajuste fino supervisado (+36.44%) y aprendizaje por refuerzo continuo (+42.47%), emergiendo como una alternativa asequible y que preserva la privacidad, competitiva con gpt-4o. Al ofrecer tanto un benchmark integral como recursos de entrenamiento accesibles y expandibles dentro de entornos de ejecución unificados, MedAgentGYM proporciona una plataforma integrada para desarrollar asistentes de codificación basados en LLM para la investigación y práctica biomédica avanzada.

English

We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.