ArogyaSutra: Um Framework Multiagente para Raciocínio Médico Multimodal em Línguas Indianas

Resumo

Modelos de Linguagem de Grande Escala Multimodais (MLLMs) têm demonstrado capacidades promissoras de raciocínio em domínios gerais, mas seu desempenho ainda é limitado em contextos especializados, como a área da saúde, especialmente em cenários multilíngues e de baixos recursos. Essa lacuna é crítica em regiões como a Índia rural, onde pacientes frequentemente expressam consultas médicas complexas em línguas indianas nativas e dependem de entradas multimodais, como imagens médicas. Os MLLMs existentes, centrados no inglês, têm dificuldade em apoiar tais casos de uso, limitando o acesso equitativo à assistência médica baseada em IA. Para enfrentar esse desafio, apresentamos o ArogyaBodha, um conjunto de dados multilíngue e multimodal de perguntas e respostas médicas em larga escala, construído a partir de oito fontes heterogêneas, abrangendo 31 sistemas corporais, seis modalidades de imagem e 21 domínios clínicos, em inglês e sete línguas indianas principais. Propomos ainda o ArogyaSutra, um framework multiagente baseado em ator-crítico que integra fundamentação de ferramentas com mecanismos de memória dupla para tomada de decisão passo a passo consciente do raciocínio, e utiliza trajetórias de simulação ator-crítico armazenadas para destilação. Experimentos mostram que nosso conjunto de dados e framework melhoram a precisão do raciocínio médico multilíngue em todas as línguas indianas, com ablações validando a contribuição de cada componente. O código-fonte e o conjunto de dados estão disponíveis em: https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/