ArogyaSutra: インド諸言語におけるマルチモーダル医療推論のためのマルチエージェントフレームワーク
ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages
June 11, 2026
著者: Tanmoy Kanti Halder, Akash Ghosh, Subhadip Baidya, Arijit Roy, Sriparna Saha
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は一般領域において有望な推論能力を示しているが、医療などの専門的な設定、特に多言語かつ低リソースのシナリオではその性能は依然として限定的である。このギャップは、インドの農村地域などの現場で深刻な問題となっている。そこでは患者が母語であるインド諸語で複雑な医療相談をし、しばしば医用画像などのマルチモーダル入力を必要とする。既存の英語中心のMLLMsは、このようなユースケースを十分にサポートできず、AIによる医療支援への公平なアクセスを制限している。この課題に取り組むため、我々はArogyaBodhaを導入する。これは8つの異種ソースから構築された大規模な多言語マルチモーダル医療質問応答データセットであり、31の身体系統、6つの画像モダリティ、21の臨床領域をカバーし、英語と7つの主要なインド言語に対応している。さらに、我々はArogyaSutraを提案する。これはアクタークリティックに基づくマルチエージェントフレームワークであり、ツール接地と二重記憶機構を統合し、段階的かつ推論を考慮した意思決定を行い、蓄積されたアクタークリティックシミュレーショントラジェクトリを蒸留に利用する。実験により、我々のデータセットとフレームワークは、すべてのインド諸語において多言語医療推論の精度を向上させ、アブレーション研究により各構成要素の寄与が検証された。ソースコードとデータセットは以下のURLで公開されている:https://iitp-cse.github.io/ArogyaSutra/
English
Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/