Meissa: Inteligência Agente Médica Multimodal

Resumo

Os modelos de linguagem grandes multimodais (MM-LLMs) têm demonstrado forte desempenho na compreensão de imagens médicas e no raciocínio clínico. Sistemas agentes médicos recentes estendem-nos com uso de ferramentas e colaboração multiagente, permitindo tomadas de decisão complexas. No entanto, estes sistemas dependem quase inteiramente de modelos de fronteira (por exemplo, GPT), cuja implementação baseada em API acarreta alto custo, alta latência e riscos de privacidade que conflituam com os requisitos clínicos de implantação local. Apresentamos Meissa, um MM-LLM médico leve com 4B de parâmetros que traz capacidade agentiva para ambiente offline. Em vez de imitar respostas estáticas, o Meissa aprende tanto quando deve iniciar interação externa (seleção de estratégia) como como executar interação multi-etapas (execução de estratégia) através da destilação de trajetórias estruturadas de modelos de fronteira. Especificamente, propomos: (1) Modelação unificada de trajetórias: as trajetórias (vestígios de raciocínio e ação) são representadas dentro de um único formalismo estado-ação-observação, permitindo que um modelo generalize em ambientes médicos heterogéneos. (2) Supervisão estratificada de três níveis: os próprios erros do modelo desencadeiam uma escalada progressiva do raciocínio direto para a interação aumentada por ferramentas e multiagente, aprendendo explicitamente uma seleção de estratégia consciente da dificuldade. (3) Supervisão prospetiva-retrospetiva: o emparelhamento de vestígios exploratórios prospectivos com vestígios de execução racionalizados a posteriori permite uma aprendizagem estável de políticas de interação eficazes. Treinado em 40K trajetórias curadas, o Meissa iguala ou excede agentes de fronteira proprietários em 10 de 16 cenários de avaliação em 13 benchmarks médicos abrangendo radiologia, patologia e raciocínio clínico. Utilizando mais de 25x menos parâmetros do que modelos de fronteira típicos como o Gemini-3, o Meissa opera totalmente offline com uma latência fim-a-fim 22x menor em comparação com a implementação baseada em API. Dados, modelos e ambientes são disponibilizados em https://github.com/Schuture/Meissa.

English

Multi-modal large language models (MM-LLMs) have shown strong performance in medical image understanding and clinical reasoning. Recent medical agent systems extend them with tool use and multi-agent collaboration, enabling complex decision-making. However, these systems rely almost entirely on frontier models (e.g., GPT), whose API-based deployment incurs high cost, high latency, and privacy risks that conflict with on-premise clinical requirements. We present Meissa, a lightweight 4B-parameter medical MM-LLM that brings agentic capability offline. Instead of imitating static answers, Meissa learns both when to engage external interaction (strategy selection) and how to execute multi-step interaction (strategy execution) by distilling structured trajectories from frontier models. Specifically, we propose: (1) Unified trajectory modeling: trajectories (reasoning and action traces) are represented within a single state-action-observation formalism, allowing one model to generalize across heterogeneous medical environments. (2) Three-tier stratified supervision: the model's own errors trigger progressive escalation from direct reasoning to tool-augmented and multi-agent interaction, explicitly learning difficulty-aware strategy selection. (3) Prospective-retrospective supervision: pairing exploratory forward traces with hindsight-rationalized execution traces enables stable learning of effective interaction policies. Trained on 40K curated trajectories, Meissa matches or exceeds proprietary frontier agents in 10 of 16 evaluation settings across 13 medical benchmarks spanning radiology, pathology, and clinical reasoning. Using over 25x fewer parameters than typical frontier models like Gemini-3, Meissa operates fully offline with 22x lower end-to-end latency compared to API-based deployment. Data, models, and environments are released at https://github.com/Schuture/Meissa.