MedSAM-Agent: Interactieve Medische Beeldsegmentatie Versterkt met Multi-turn Agentgericht Versterkend Leren
MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
February 3, 2026
Auteurs: Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng, Chenxin Li, Wenting Chen, Houwen Peng, Yixuan Yuan
cs.AI
Samenvatting
Medische beeldsegmentatie evolueert van taakspecifieke modellen naar generaliseerbare raamwerken. Recent onderzoek benut Multi-modale Grote Taalmodellen (MLLM's) als autonome agents, waarbij reinforcement learning met verifieerbare beloning (RLVR) wordt ingezet om gespecialiseerde tools zoals het Segment Anything Model (SAM) te coördineren. Deze benaderingen steunen echter vaak op eenmalige, rigide interactiestrategieën en missen procesniveau-supervisie tijdens de training, wat hun vermogen beperkt om het dynamische potentieel van interactieve tools ten volle te benutten en leidt tot redundante acties. Om deze kloof te overbruggen, stellen wij MedSAM-Agent voor, een raamwerk dat interactieve segmentatie herformuleert als een meerstaps autonoom besluitvormingsproces. Ten eerste introduceren we een hybride promptstrategie voor het genereren van door experts samengestelde trajecten, waardoor het model menselijke beslissingsheuristieken en adaptieve verfijningsstrategieën kan internaliseren. Verder ontwikkelen we een tweefasig trainingsproces dat meerronde, end-to-end resultaatverificatie integreert met een klinisch-getrouw procesbeloningsontwerp om interactiesoberheid en besluitvormingsefficiëntie te bevorderen. Uitgebreide experimenten over 6 medische modaliteiten en 21 datasets tonen aan dat MedSAM-Agent state-of-the-art prestaties bereikt en autonome medische redenering effectief verenigt met robuuste, iteratieve optimalisatie. Code is beschikbaar op https://github.com/CUHK-AIM-Group/MedSAM-Agent.
English
Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available https://github.com/CUHK-AIM-Group/MedSAM-Agent{here}.