ChatPaper.aiChatPaper

Meissa: Multimodale Medische Agentgestuurde Intelligentie

Meissa: Multi-modal Medical Agentic Intelligence

March 9, 2026
Auteurs: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI

Samenvatting

Multimodale grote taalmodellen (MM-GTM's) hebben sterke prestaties getoond in medisch beeldbegrip en klinisch redeneren. Recente medische agentsystemen breiden deze uit met toolgebruik en multi-agent samenwerking, waardoor complexe besluitvorming mogelijk wordt. Deze systemen zijn echter vrijwel volledig afhankelijk van frontiermodellen (bijvoorbeeld GPT), waarvan API-gebaseerde implementatie hoge kosten, hoge latentie en privacyrisico's met zich meebrengt die in conflict zijn met on-premise klinische vereisten. Wij presenteren Meissa, een lichtgewicht medisch MM-GTM met 4B parameters dat agentmogelijkheden offline brengt. In plaats van statische antwoorden na te bootsen, leert Meissa zowel wanneer externe interactie moet worden aangegaan (strategieselectie) als hoe multi-staps interactie moet worden uitgevoerd (strategie-uitvoering) door gestructureerde trajecten te destilleren uit frontiermodellen. Concreet stellen wij voor: (1) Uniforme trajectmodellering: trajecten (redeneer- en actiesporen) worden weergegeven binnen een enkel staat-actie-waarnemingsformalisme, waardoor één model kan generaliseren over heterogene medische omgevingen. (2) Drielagige gestratificeerde supervisie: de eigen fouten van het model activeren een progressieve escalatie van direct redeneren naar tool-ondersteunde en multi-agent interactie, waarbij expliciet moeilijkheidsbewuste strategieselectie wordt aangeleerd. (3) Prospectief-retrospectieve supervisie: het koppelen van verkennende voorwaartse sporen aan achteraf gerationaliseerde uitvoeringssporen maakt stabiel leren van effectieve interactiebeleid mogelijk. Getraind op 40K gecureerde trajecten, evenaart of overtreft Meissa propriëtaire frontieragents in 10 van de 16 evaluatie-instellingen over 13 medische benchmarks voor radiologie, pathologie en klinisch redeneren. Met meer dan 25x minder parameters dan typische frontiermodellen zoals Gemini-3, opereert Meissa volledig offline met 22x lagere end-to-end latentie vergeleken met API-gebaseerde implementatie. Data, modellen en omgevingen zijn vrijgegeven op https://github.com/Schuture/Meissa.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.
PDF52March 19, 2026