ChatPaper.aiChatPaper

Meissa : Intelligence Agentielle Médicale Multimodale

Meissa: Multi-modal Medical Agentic Intelligence

March 9, 2026
Auteurs: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI

Résumé

Les modèles de grands langages multimodaux (MM-LLM) démontrent des performances solides dans la compréhension d'images médicales et le raisonnement clinique. Les systèmes d'agents médicaux récents les étendent avec l'utilisation d'outils et la collaboration multi-agents, permettant une prise de décision complexe. Cependant, ces systèmes reposent presque entièrement sur des modèles de pointe (par exemple, GPT), dont le déploiement par API entraîne un coût élevé, une latence importante et des risques pour la confidentialité incompatibles avec les exigences cliniques sur site. Nous présentons Meissa, un MM-LLM médical léger de 4 milliards de paramètres qui apporte les capacités agentielles hors ligne. Au lieu d'imiter des réponses statiques, Meissa apprend à la fois quand engager une interaction externe (sélection de stratégie) et comment exécuter une interaction multi-étapes (exécution de stratégie) en distillant des trajectoires structurées à partir de modèles de pointe. Plus précisément, nous proposons : (1) Modélisation unifiée des trajectoires : les trajectoires (traces de raisonnement et d'action) sont représentées dans un formalisme unique état-action-observation, permettant à un modèle de généraliser à travers des environnements médicaux hétérogènes. (2) Supervision stratifiée à trois niveaux : les erreurs du modèle déclenchent une escalade progressive du raisonnement direct vers l'interaction outillée et multi-agents, apprenant explicitement une sélection de stratégie sensible à la difficulté. (3) Supervision prospective-rétrospective : l'appariement de traces prospectives d'exploration avec des traces d'exécution rationalisées a posteriori permet un apprentissage stable de politiques d'interaction efficaces. Entraîné sur 40 000 trajectoires curatées, Meissa égale ou dépasse les agents propriétaires de pointe dans 10 des 16 scénarios d'évaluation sur 13 benchmarks médicaux couvrant la radiologie, la pathologie et le raisonnement clinique. Utilisant plus de 25 fois moins de paramètres que les modèles de pointe typiques comme Gemini-3, Meissa fonctionne entièrement hors ligne avec une latence de bout en bout 22 fois inférieure par rapport au déploiement par API. Les données, modèles et environnements sont disponibles à l'adresse https://github.com/Schuture/Meissa.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.
PDF21March 13, 2026