ChatPaper.aiChatPaper

MedAgentGym: Entrenamiento de Agentes LLM para Razonamiento Médico Basado en Código a Gran Escala

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

June 4, 2025
Autores: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI

Resumen

Presentamos MedAgentGYM, el primer entorno de entrenamiento disponible públicamente diseñado para mejorar las capacidades de razonamiento médico basado en codificación en agentes de modelos de lenguaje de gran escala (LLM). MedAgentGYM comprende 72,413 instancias de tareas distribuidas en 129 categorías derivadas de escenarios biomédicos auténticos del mundo real. Las tareas están encapsuladas en entornos de codificación ejecutables, cada uno con descripciones detalladas de las tareas, mecanismos de retroalimentación interactiva, anotaciones verificables de referencia y generación escalable de trayectorias de entrenamiento. Un extenso benchmarking de más de 30 LLM revela una notable disparidad de rendimiento entre los modelos basados en API comerciales y sus contrapartes de código abierto. Al aprovechar MedAgentGYM, Med-Copilot-7B logra mejoras sustanciales en el rendimiento mediante ajuste fino supervisado (+36.44%) y aprendizaje por refuerzo continuo (+42.47%), emergiendo como una alternativa asequible y que preserva la privacidad, competitiva con gpt-4o. Al ofrecer tanto un benchmark integral como recursos de entrenamiento accesibles y expandibles dentro de entornos de ejecución unificados, MedAgentGYM proporciona una plataforma integrada para desarrollar asistentes de codificación basados en LLM para la investigación y práctica biomédica avanzada.
English
We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.
PDF51June 6, 2025