MedAgentGym: Entrenamiento de Agentes LLM para Razonamiento Médico Basado en Código a Gran Escala
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
Autores: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
Resumen
Presentamos MedAgentGYM, el primer entorno de entrenamiento disponible públicamente diseñado para mejorar las capacidades de razonamiento médico basado en codificación en agentes de modelos de lenguaje de gran escala (LLM). MedAgentGYM comprende 72,413 instancias de tareas distribuidas en 129 categorías derivadas de escenarios biomédicos auténticos del mundo real. Las tareas están encapsuladas en entornos de codificación ejecutables, cada uno con descripciones detalladas de las tareas, mecanismos de retroalimentación interactiva, anotaciones verificables de referencia y generación escalable de trayectorias de entrenamiento. Un extenso benchmarking de más de 30 LLM revela una notable disparidad de rendimiento entre los modelos basados en API comerciales y sus contrapartes de código abierto. Al aprovechar MedAgentGYM, Med-Copilot-7B logra mejoras sustanciales en el rendimiento mediante ajuste fino supervisado (+36.44%) y aprendizaje por refuerzo continuo (+42.47%), emergiendo como una alternativa asequible y que preserva la privacidad, competitiva con gpt-4o. Al ofrecer tanto un benchmark integral como recursos de entrenamiento accesibles y expandibles dentro de entornos de ejecución unificados, MedAgentGYM proporciona una plataforma integrada para desarrollar asistentes de codificación basados en LLM para la investigación y práctica biomédica avanzada.
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.