MedAgentGym: コードベースの医療推論のためのLLMエージェントの大規模トレーニング
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
June 4, 2025
著者: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi
cs.AI
要旨
私たちは、大規模言語モデル(LLM)エージェントのコーディングベースの医療推論能力を向上させるために設計された、初の公開トレーニング環境であるMedAgentGYMを紹介します。MedAgentGYMは、実際の生物医学シナリオから派生した129のカテゴリにわたる72,413のタスクインスタンスで構成されています。各タスクは実行可能なコーディング環境にカプセル化されており、詳細なタスク説明、インタラクティブなフィードバックメカニズム、検証可能な正解アノテーション、およびスケーラブルなトレーニング軌道生成を備えています。30以上のLLMを対象とした広範なベンチマークにより、商用APIベースのモデルとオープンソースのモデルとの間に顕著な性能差があることが明らかになりました。MedAgentGYMを活用して、Med-Copilot-7Bは教師ありファインチューニング(+36.44%)と継続的な強化学習(+42.47%)を通じて大幅な性能向上を達成し、gpt-4oと競合する手頃でプライバシー保護型の代替手段として登場しました。MedAgentGYMは、統一された実行環境内で包括的なベンチマークとアクセス可能で拡張可能なトレーニングリソースを提供することにより、高度な生物医学研究と実践のためのLLMベースのコーディングアシスタントを開発するための統合プラットフォームを提供します。
English
We introduce MedAgentGYM, the first publicly available training environment
designed to enhance coding-based medical reasoning capabilities in large
language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across
129 categories derived from authentic real-world biomedical scenarios. Tasks
are encapsulated within executable coding environments, each featuring detailed
task descriptions, interactive feedback mechanisms, verifiable ground-truth
annotations, and scalable training trajectory generation. Extensive
benchmarking of over 30 LLMs reveals a notable performance disparity between
commercial API-based models and open-source counterparts. Leveraging
MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through
supervised fine-tuning (+36.44%) and continued reinforcement learning
(+42.47%), emerging as an affordable and privacy-preserving alternative
competitive with gpt-4o. By offering both a comprehensive benchmark and
accessible, expandable training resources within unified execution
environments, MedAgentGYM delivers an integrated platform to develop LLM-based
coding assistants for advanced biomedical research and practice.