ArogyaSutra : Un cadre multi-agent pour le raisonnement médical multimodal dans les langues indiennes

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) démontrent des capacités de raisonnement prometteuses dans les domaines généraux, mais leurs performances restent limitées dans des contextes spécialisés tels que la santé, en particulier dans les scénarios multilingues et à faibles ressources. Ce fossé est critique dans des régions comme l'Inde rurale, où les patients expriment souvent des requêtes médicales complexes dans des langues indiennes natives et dépendent d'entrées multimodales telles que les images médicales. Les MLLMs existants, centrés sur l'anglais, peinent à soutenir de tels cas d'usage, limitant un accès équitable à une assistance médicale basée sur l'IA. Pour relever ce défi, nous présentons ArogyaBodha, un vaste jeu de données de questions-réponses médicales multilingues et multimodales construit à partir de huit sources hétérogènes, couvrant 31 systèmes corporels, six modalités d'imagerie et 21 domaines cliniques, en anglais et dans sept langues indiennes majeures. Nous proposons également ArogyaSutra, un cadre multi-agent basé sur l'actor-critic qui intègre un ancrage d'outils avec des mécanismes de double mémoire pour une prise de décision étape par étape et consciente du raisonnement, utilisant des trajectoires de simulation actor-critic stockées pour la distillation. Les expériences montrent que notre jeu de données et notre cadre améliorent la précision du raisonnement médical multilingue dans toutes les langues indiennes, avec des ablations validant la contribution de chaque composant. Le code source et le jeu de données sont disponibles à l'adresse : https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/