Meissa: Multimodale medizinische agentenbasierte Intelligenz
Meissa: Multi-modal Medical Agentic Intelligence
March 9, 2026
Autoren: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MM-LLMs) haben starke Leistungen im Verständnis medizinischer Bilder und im klinischen Denken gezeigt. Neuere medizinische Agentensysteme erweitern diese um Werkzeugnutzung und Multi-Agenten-Kollaboration, was komplexe Entscheidungsfindung ermöglicht. Diese Systeme stützen sich jedoch fast vollständig auf hochmoderne Frontier-Modelle (z.B. GPT), deren API-basierte Bereitstellung hohe Kosten, hohe Latenz und Datenschutzrisiken mit sich bringt, die den Anforderungen an On-Premise-Kliniklösungen entgegenstehen. Wir stellen Meissa vor, ein leichtgewichtiges medizinisches MM-LLM mit 4B Parametern, das Agenten-Fähigkeiten offline verfügbar macht. Anstatt statische Antworten nachzuahmen, lernt Meissa sowohl, wann es eine externe Interaktion einleiten soll (Strategieauswahl), als auch, wie es eine mehrstufige Interaktion ausführt (Strategieausführung), indem es strukturierte Trajektorien aus Frontier-Modellen destilliert. Konkret schlagen wir vor: (1) Vereinheitlichte Trajektorienmodellierung: Trajektorien (Ableitungs- und Aktionsspuren) werden innerhalb eines einzigen Zustand-Aktion-Beobachtungs-Formalismus dargestellt, was es einem Modell ermöglicht, sich über heterogene medizinische Umgebungen zu verallgemeinern. (2) Drei-stufige stratifizierte Supervision: Die eigenen Fehler des Modells lösen eine progressive Eskalation vom direkten Schlussfolgern hin zu werkzeuggestützter und Multi-Agenten-Interaktion aus, wodurch explizit eine schwierigkeitsbewusste Strategieauswahl erlernt wird. (3) Prospektiv-retrospektive Supervision: Die Paarung explorativer Vorwärtsspuren mit rückblickend rationalisierten Ausführungsspuren ermöglicht stabiles Lernen effektiver Interaktionsrichtlinien. Trainiert mit 40.000 kuratierten Trajektorien, übertrifft oder erreicht Meissa proprietäre Frontier-Agenten in 10 von 16 Bewertungsszenarien über 13 medizinische Benchmarks hinweg, die Radiologie, Pathologie und klinisches Denken abdecken. Mit über 25x weniger Parametern als typische Frontier-Modelle wie Gemini-3 arbeitet Meissa vollständig offline und weist eine 22x niedrigere End-to-End-Latenz im Vergleich zur API-basierten Bereitstellung auf. Daten, Modelle und Umgebungen sind unter https://github.com/Schuture/Meissa veröffentlicht.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.