ArogyaSutra: Een multi-agent framework voor multimodale medische redenering in Indische talen

Samenvatting

Multimodale Grote Taalmodellen (MLLM's) tonen veelbelovende redeneervermogens in algemene domeinen, maar hun prestaties blijven beperkt in gespecialiseerde omgevingen zoals de gezondheidszorg, met name in meertalige en laag-bronnen scenario's. Deze kloof is kritiek in regio's zoals het platteland van India, waar patiënten vaak complexe medische vragen stellen in inheemse Indiase talen en afhankelijk zijn van multimodale invoer zoals medische beelden. Bestaande Engels-centrische MLLM's kunnen dergelijke gebruikssituaties niet goed ondersteunen, wat de gelijke toegang tot AI-gestuurde gezondheidszorgassistentie belemmert. Om deze uitdaging aan te pakken introduceren we ArogyaBodha, een grootschalige meertalige multimodale medische vraag-antwoorddataset samengesteld uit acht heterogene bronnen, die 31 lichaamssystemen, zes beeldvormingsmodaliteiten en 21 klinische domeinen bestrijkt in het Engels en zeven belangrijke Indiase talen. Verder stellen we ArogyaSutra voor, een actor-criticus gebaseerd multi-agent raamwerk dat tool-gronding integreert met duale geheugenmechanismen voor stapsgewijze, redeneringsbewuste besluitvorming, en gebruikmaakt van opgeslagen actor-criticus simulatiepaden voor distillatie. Experimenten tonen aan dat onze dataset en raamwerk de meertalige medische redeneernauwkeurigheid in alle Indiase talen verbeteren, waarbij ablatiestudies de bijdrage van elke component valideren. De broncode en dataset zijn beschikbaar op: https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/