Meissa: Intelligenza Agente Medica Multi-modale
Meissa: Multi-modal Medical Agentic Intelligence
March 9, 2026
Autori: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MM-LLM) hanno dimostrato prestazioni solide nella comprensione delle immagini mediche e nel ragionamento clinico. I recenti sistemi agenti medici li estendono con l'uso di strumenti e la collaborazione multi-agente, abilitando processi decisionali complessi. Tuttavia, questi sistemi si affidano quasi interamente a modelli all'avanguardia (ad es., GPT), il cui deployment basato su API comporta costi elevati, latenze elevate e rischi per la privacy che confliggono con i requisiti clinici on-premise. Presentiamo Meissa, un MM-LLM medico leggero da 4 miliardi di parametri che porta offline le capacità agentive. Invece di imitare risposte statiche, Meissa apprende sia quando attivare un'interazione esterna (selezione della strategia) sia come eseguire un'interazione multi-step (esecuzione della strategia) distillando traiettorie strutturate dai modelli all'avanguardia. Nello specifico, proponiamo: (1) Modellazione unificata delle traiettorie: le traiettorie (tracce di ragionamento e azione) sono rappresentate all'interno di un unico formalismo stato-azione-osservazione, permettendo a un singolo modello di generalizzare attraverso ambienti medici eterogenei. (2) Supervisione stratificata a tre livelli: gli errori del modello stesso innescano un'escalation progressiva dal ragionamento diretto all'interazione aumentata da strumenti e multi-agente, apprendendo esplicitamente una selezione della strategia consapevole della difficoltà. (3) Supervisione prospettico-retrospettiva: l'abbinamento di tracce forward esplorative con tracce di esecuzione razionalizzate a posteriori permette un apprendimento stabile di politiche di interazione efficaci. Addestrato su 40.000 traiettorie curate, Meissa eguaglia o supera agenti proprietari all'avanguardia in 10 su 16 scenari di valutazione attraverso 13 benchmark medici che coprono radiologia, patologia e ragionamento clinico. Utilizzando oltre 25 volte meno parametri rispetto a modelli all'avanguardia tipici come Gemini-3, Meissa opera completamente offline con una latenza end-to-end 22 volte inferiore rispetto al deployment basato su API. Dati, modelli e ambienti sono rilasciati su https://github.com/Schuture/Meissa.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.