ChatPaper.aiChatPaper

MedSAM-Agent: Расширение возможностей интерактивной сегментации медицинских изображений с помощью многошагового агентного обучения с подкреплением

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

February 3, 2026
Авторы: Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng, Chenxin Li, Wenting Chen, Houwen Peng, Yixuan Yuan
cs.AI

Аннотация

Сегментация медицинских изображений эволюционирует от узкоспециализированных моделей к обобщающим фреймворкам. В последних исследованиях используются мультимодальные большие языковые модели (MLLM) в качестве автономных агентов, применяющих обучение с подкреплением с верифицируемым вознаграждением (RLVR) для координации специализированных инструментов, таких как Segment Anything Model (SAM). Однако эти подходы часто полагаются на одношаговые жесткие стратегии взаимодействия и не имеют процессного контроля во время обучения, что ограничивает их способность полностью раскрывать динамический потенциал интерактивных инструментов и приводит к избыточным действиям. Для преодоления этого разрыва мы предлагаем MedSAM-Agent — фреймворк, который переформулирует интерактивную сегментацию как многошаговый процесс автономного принятия решений. Во-первых, мы внедряем гибридную стратегию prompting для генерации траекторий, курируемых экспертами, что позволяет модели усваивать эвристики принятия решений, подобные человеческим, и адаптивные стратегии уточнения. Кроме того, мы разрабатываем двухэтапный конвейер обучения, который интегрирует многошаговую сквозную верификацию результатов с дизайном процессного вознаграждения, учитывающим клиническую достоверность, для повышения эффективности взаимодействия и принятия решений. Масштабные эксперименты на 6 медицинских модальностях и 21 наборе данных демонстрируют, что MedSAM-Agent достигает наилучших результатов, эффективно объединяя автономные медицинские рассуждения с надежной итеративной оптимизацией. Код доступен по ссылке: https://github.com/CUHK-AIM-Group/MedSAM-Agent.
English
Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available https://github.com/CUHK-AIM-Group/MedSAM-Agent{here}.
PDF11February 5, 2026