ChatPaper.aiChatPaper

MedAgentGym: Schulung von LLM-Agenten für codebasierte medizinische Entscheidungsfindung im großen Maßstab

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

June 4, 2025
Autoren: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI

Zusammenfassung

Wir stellen MedAgentGYM vor, die erste öffentlich verfügbare Trainingsumgebung, die entwickelt wurde, um die codierungsbasierten medizinischen Denkfähigkeiten von großen Sprachmodellen (LLM-Agenten) zu verbessern. MedAgentGYM umfasst 72.413 Aufgabeninstanzen aus 129 Kategorien, die aus authentischen, realen biomedizinischen Szenarien abgeleitet sind. Die Aufgaben sind in ausführbaren Codierungsumgebungen eingebettet, die jeweils detaillierte Aufgabenbeschreibungen, interaktive Feedbackmechanismen, überprüfbare Ground-Truth-Annotationen und skalierbare Trainingspfadgenerierung bieten. Umfangreiche Benchmarking-Ergebnisse von über 30 LLMs zeigen eine bemerkenswerte Leistungsdiskrepanz zwischen kommerziellen API-basierten Modellen und Open-Source-Alternativen. Durch die Nutzung von MedAgentGYM erzielt Med-Copilot-7B erhebliche Leistungssteigerungen durch überwachtes Fein-Tuning (+36,44 %) und fortlaufendes Reinforcement Learning (+42,47 %) und etabliert sich als kostengünstige und datenschutzfreundliche Alternative, die mit gpt-4o konkurrieren kann. Indem MedAgentGYM sowohl einen umfassenden Benchmark als auch zugängliche, erweiterbare Trainingsressourcen in einheitlichen Ausführungsumgebungen bietet, stellt es eine integrierte Plattform zur Entwicklung von LLM-basierten Codierungsassistenten für fortgeschrittene biomedizinische Forschung und Praxis bereit.
English
We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.
PDF41June 6, 2025