MedSAM-Agent: Capacitando a Segmentação Interativa de Imagens Médicas com Reforço de Aprendizado Agêntico de Múltiplos Turnos

Resumo

A segmentação de imagens médicas está evoluindo de modelos específicos para tarefas em direção a frameworks generalizáveis. Pesquisas recentes utilizam Modelos de Linguagem Multimodais de Grande Escala (MLLMs) como agentes autônomos, empregando aprendizado por reforço com recompensa verificável (RLVR) para orquestrar ferramentas especializadas como o Segment Anything Model (SAM). No entanto, essas abordagens frequentemente dependem de estratégias de interação rígidas e de turno único e carecem de supervisão em nível de processo durante o treinamento, o que limita sua capacidade de explorar todo o potencial dinâmico das ferramentas interativas e leva a ações redundantes. Para preencher essa lacuna, propomos o MedSAM-Agent, um framework que reformula a segmentação interativa como um processo de tomada de decisão autônoma em múltiplas etapas. Primeiro, introduzimos uma estratégia de prompting híbrida para a geração de trajetórias curadas por especialistas, permitindo que o modelo internalize heurísticas de decisão semelhantes às humanas e estratégias de refinamento adaptativo. Além disso, desenvolvemos um pipeline de treinamento em dois estágios que integra verificação de resultado multi-turno de ponta a ponta com um desenho de recompensa de processo com fidelidade clínica para promover a parcimônia na interação e a eficiência decisória. Experimentos extensos em 6 modalidades médicas e 21 conjuntos de dados demonstram que o MedSAM-Agent alcança desempenho state-of-the-art, unificando efetivamente o raciocínio médico autônomo com uma otimização iterativa e robusta. O código está disponível {aqui}(https://github.com/CUHK-AIM-Group/MedSAM-Agent).

English

Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available https://github.com/CUHK-AIM-Group/MedSAM-Agent{here}.

MedSAM-Agent: Capacitando a Segmentação Interativa de Imagens Médicas com Reforço de Aprendizado Agêntico de Múltiplos Turnos

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

Resumo

Support