ArogyaSutra: 인도 언어 기반 다중 모드 의료 추론을 위한 다중 에이전트 프레임워크
ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages
June 11, 2026
저자: Tanmoy Kanti Halder, Akash Ghosh, Subhadip Baidya, Arijit Roy, Sriparna Saha
cs.AI
초록
다중모달 대규모 언어 모델(MLLM)은 일반적인 도메인에서 주목할 만한 추론 능력을 보여주었으나, 의료와 같은 특수한 환경, 특히 다국어 및 저자원 시나리오에서는 성능이 여전히 제한적이다. 이러한 격차는 환자들이 종종 토착 인도어로 복잡한 의료 질문을 표현하고 의료 영상과 같은 다중모달 입력에 의존하는 인도 농촌 지역과 같은 곳에서 매우 중요하다. 기존의 영어 중심 MLLM은 이러한 사용 사례를 지원하는 데 어려움을 겪어 AI 기반 의료 지원에 대한 공평한 접근을 제한한다. 이러한 문제를 해결하기 위해 우리는 ArogyaBodha를 소개한다. 이는 8개의 이종 소스로 구축된 대규모 다국어 다중모달 의료 질문-답변 데이터셋으로, 영어와 7대 주요 인도어에 걸쳐 31개의 신체 시스템, 6개의 영상 양식, 21개의 임상 도메인을 포괄한다. 또한 우리는 ArogyaSutra를 제안한다. 이는 도구 기반 추론과 이중 메모리 메커니즘을 통합하여 단계적이고 추론 인식적인 의사 결정을 수행하고, 저장된 행위자-비평가 시뮬레이션 궤적을 증류(distillation)에 활용하는 행위자-비평가 기반 다중 에이전트 프레임워크이다. 실험 결과, 우리의 데이터셋과 프레임워크는 모든 인도어에서 다국어 의료 추론 정확도를 향상시켰으며, 절제 연구(ablation study)를 통해 각 구성 요소의 기여를 검증하였다. 소스 코드와 데이터셋은 다음에서 확인할 수 있다: https://iitp-cse.github.io/ArogyaSutra/
English
Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/