Meissa: 다중 모달 의료 에이전트 인텔리전스
Meissa: Multi-modal Medical Agentic Intelligence
March 9, 2026
저자: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI
초록
다중 모달 대규모 언어 모델(MM-LLM)은 의료 영상 이해 및 임상 추론 분야에서 강력한 성능을 보여주고 있습니다. 최근 의료 에이전트 시스템은 도구 사용 및 다중 에이전트 협업 기능을 추가하여 복잡한 의사 결정을 가능하게 합니다. 그러나 이러한 시스템은 거의 전적으로 최첨단 모델(예: GPT)에 의존하며, API 기반 배포 방식은 높은 비용, 높은 지연 시간, 그리고 온프레미스 임상 요구사항과 상충되는 개인정보 보호 위험을 초래합니다. 본 논문은 에이전트 능력을 오프라인으로 제공하는 경량 4B 파라미터 의료 MM-LLM인 Meissa를 제안합니다. Meissa는 정적 답변을 모방하는 대신, 최첨단 모델에서 구조화된 궤적을 추출하여 언제 외부 상호작용을 시작할지(전략 선택)와 어떻게 다단계 상호작용을 실행할지(전략 실행)를 모두 학습합니다. 구체적으로 다음을 제안합니다: (1) 통합 궤적 모델링: (추론 및 행동 흔적을 포함한) 궤적이 단일 상태-행동-관찰 형식으로 표현되어 하나의 모델이 이기종 의료 환경에 걸쳐 일반화될 수 있도록 합니다. (2) 3계층 계층적 감독: 모델 자체의 오류가 직접 추론에서 도구 강화 및 다중 에이전트 상호작용으로 점진적으로 확대되도록 하여 난이도 인식 전략 선택을 명시적으로 학습합니다. (3) 예측-회고적 감독: 탐색적인 순방향 흔적과 사후 합리화된 실행 흔적을 결합하여 효과적인 상호작용 정책을 안정적으로 학습합니다. 40,000개의 정제된 궤적으로 학습된 Meissa는 방사선학, 병리학, 임상 추론에 걸친 13개 의료 벤치마크에서 총 16개 평가 설정 중 10가지에서 독점 최첨단 에이전트와 동등하거나 더 나은 성능을 보였습니다. Gemini-3와 같은 일반적인 최첨단 모델 대비 25배 이상 적은 파라미터를 사용하는 Meissa는 완전히 오프라인으로 작동하며 API 기반 배포 대비 22배 낮은 종단간 지연 시간을 보입니다. 데이터, 모델 및 환경은 https://github.com/Schuture/Meissa에서 공개됩니다.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.