ArogyaSutra: Ein Multi-Agenten-Framework für multimodales medizinisches Reasoning in indischen Sprachen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Schlussfolgerungsfähigkeiten in allgemeinen Bereichen gezeigt, ihre Leistung bleibt jedoch in spezialisierten Umgebungen wie dem Gesundheitswesen begrenzt, insbesondere in mehrsprachigen und ressourcenarmen Szenarien. Diese Lücke ist in Regionen wie dem ländlichen Indien kritisch, wo Patienten komplexe medizinische Anfragen oft in einheimischen indischen Sprachen formulieren und auf multimodale Eingaben wie medizinische Bilder angewiesen sind. Bestehende englischzentrierte MLLMs können solche Anwendungsfälle nur unzureichend unterstützen und schränken den gleichberechtigten Zugang zu KI-gestützter Gesundheitsunterstützung ein. Um dieser Herausforderung zu begegnen, stellen wir ArogyaBodha vor, einen groß angelegten mehrsprachigen multimodalen medizinischen Frage-Antwort-Datensatz, der aus acht heterogenen Quellen erstellt wurde und 31 Körpersysteme, sechs Bildgebungsmodalitäten sowie 21 klinische Fachgebiete in Englisch und sieben wichtigen indischen Sprachen abdeckt. Darüber hinaus schlagen wir ArogyaSutra vor, ein Akteur-Kritik-basiertes Multi-Agenten-Framework, das Werkzeugverankerung mit dualen Gedächtnismechanismen für eine schrittweise, schlussfolgerungsbewusste Entscheidungsfindung integriert und gespeicherte Akteur-Kritik-Simulationsverläufe zur Destillation nutzt. Experimente zeigen, dass unser Datensatz und Framework die mehrsprachige medizinische Schlussfolgerungsgenauigkeit in allen indischen Sprachen verbessern, wobei Ablationen den Beitrag jeder Komponente bestätigen. Der Quellcode und der Datensatz sind verfügbar unter: https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/