MedSAM-Agent:マルチターンエージェント強化学習による対話型医療画像セグメンテーションの高度化
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
February 3, 2026
著者: Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng, Chenxin Li, Wenting Chen, Houwen Peng, Yixuan Yuan
cs.AI
要旨
医用画像セグメンテーションは、タスク特化型モデルから一般化可能なフレームワークへと進化している。近年の研究では、マルチモーダル大規模言語モデル(MLLMs)を自律エージェントとして利用し、検証可能な報酬を用いた強化学習(RLVR)によってSegment Anything Model(SAM)のような専門ツールを統制する手法が提案されている。しかし、これらのアプローチは単一ターンの硬直した相互作用戦略に依存することが多く、学習中のプロセスレベルでの監督が不足しているため、対話型ツールの動的ポテンシャルを十分に活用できず、冗長な動作を招くという課題がある。このギャップを埋めるため、我々は対話的セグメンテーションを多段階の自律的意思決定プロセスとして再定義するMedSAM-Agentを提案する。まず、専門家が監修した軌道生成のためのハイブリッドプロンプト戦略を導入し、モデルが人間らしい意思決定ヒューリスティクスと適応的精密化戦略を内在化できるようにする。さらに、マルチターンのエンドツーエンド結果検証と臨床忠実度を考慮したプロセス報酬設計を統合した2段階トレーニングパイプラインを開発し、相互作用の節約と意思決定の効率化を促進する。6つの医用モダリティと21のデータセットを用いた大規模な実験により、MedSAM-Agentが最先端の性能を達成し、自律的な医療推論とロバストな反復最適化を効果的に統合できることを実証した。コードはhttps://github.com/CUHK-AIM-Group/MedSAM-Agentで公開されている。
English
Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available https://github.com/CUHK-AIM-Group/MedSAM-Agent{here}.