Meissa: Inteligencia Agente Médica Multimodal
Meissa: Multi-modal Medical Agentic Intelligence
March 9, 2026
Autores: Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille
cs.AI
Resumen
Los modelos lingüísticos multimodales de gran tamaño (MM-LLM) han demostrado un alto rendimiento en la comprensión de imágenes médicas y el razonamiento clínico. Los sistemas agentes médicos recientes los amplían con el uso de herramientas y la colaboración multiagente, permitiendo una toma de decisiones compleja. Sin embargo, estos sistemas dependen casi por completo de modelos de vanguardia (por ejemplo, GPT), cuyo despliegue basado en API conlleva un alto costo, alta latencia y riesgos de privacidad que entran en conflicto con los requisitos clínicos locales. Presentamos Meissa, un MM-LLM médico ligero de 4B parámetros que lleva la capacidad agente fuera de línea. En lugar de imitar respuestas estáticas, Meissa aprende tanto cuándo iniciar una interacción externa (selección de estrategia) como cómo ejecutar una interacción multi-etapa (ejecución de estrategia) mediante la destilación de trayectorias estructuradas de modelos de vanguardia. Específicamente, proponemos: (1) Modelado unificado de trayectorias: las trayectorias (huellas de razonamiento y acción) se representan dentro de un formalismo único estado-acción-observación, permitiendo que un modelo se generalice a través de entornos médicos heterogéneos. (2) Supervisión estratificada de tres niveles: los errores propios del modelo activan una escalada progresiva desde el razonamiento directo hasta la interacción aumentada con herramientas y multiagente, aprendiendo explícitamente una selección de estrategia consciente de la dificultad. (3) Supervisión prospectiva-retrospectiva: el emparejamiento de huellas de exploración prospectivas con huellas de ejecución racionalizadas a posteriori permite un aprendizaje estable de políticas de interacción efectivas. Entrenado en 40,000 trayectorias curadas, Meissa iguala o supera a agentes de vanguardia propietarios en 10 de 16 escenarios de evaluación a lo largo de 13 benchmarks médicos que abarcan radiología, patología y razonamiento clínico. Utilizando más de 25 veces menos parámetros que modelos de vanguardia típicos como Gemini-3, Meissa opera completamente fuera de línea con una latencia de extremo a extremo 22 veces menor en comparación con el despliegue basado en API. Los datos, modelos y entornos se publican en https://github.com/Schuture/Meissa.
English
Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.