ArogyaSutra: Un Marco Multiagente para el Razonamiento Médico Multimodal en Lenguas Índicas

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han demostrado capacidades de razonamiento prometedoras en dominios generales, pero su rendimiento sigue siendo limitado en entornos especializados como la atención médica, especialmente en escenarios multilingües y de bajos recursos. Esta brecha es crítica en regiones como la India rural, donde los pacientes a menudo expresan consultas médicas complejas en lenguas índicas nativas y dependen de entradas multimodales como imágenes médicas. Los MLLMs existentes, centrados en inglés, tienen dificultades para respaldar dichos casos de uso, lo que limita el acceso equitativo a la asistencia sanitaria impulsada por IA. Para abordar este desafío, presentamos ArogyaBodha, un conjunto de datos multilingüe multimodal médico de preguntas y respuestas a gran escala construido a partir de ocho fuentes heterogéneas, que cubre 31 sistemas corporales, seis modalidades de imagen y 21 dominios clínicos en inglés y siete lenguas indias principales. Además, proponemos ArogyaSutra, un marco multiagente basado en actor-crítico que integra el anclaje de herramientas con mecanismos de memoria dual para la toma de decisiones paso a paso consciente del razonamiento, y utiliza trayectorias de simulación actor-crítico almacenadas para destilación. Los experimentos muestran que nuestro conjunto de datos y marco mejoran la precisión del razonamiento médico multilingüe en todas las lenguas índicas, y las ablaciones validan la contribución de cada componente. El código fuente y el conjunto de datos están disponibles en: https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/