ArogyaSutra: Мультиагентный фреймворк для мультимодального медицинского рассуждения на индийских языках

Аннотация

Мультимодальные большие языковые модели (МБЯМ) демонстрируют многообещающие способности к рассуждению в общих областях, однако их эффективность остаётся ограниченной в специализированных контекстах, таких как здравоохранение, особенно в многоязычных сценариях с ограниченными ресурсами. Этот пробел критичен в регионах, подобных сельской Индии, где пациенты часто формулируют сложные медицинские запросы на родных индийских языках и полагаются на мультимодальные входные данные, например медицинские изображения. Существующие англоцентричные МБЯМ не способны поддерживать такие сценарии использования, что ограничивает равный доступ к ИИ-ассистированной медицинской помощи. Для решения этой задачи мы представляем ArogyaBodha — крупномасштабный многоязычный мультимодальный набор данных вопросов и ответов по медицине, составленный из восьми разнородных источников и охватывающий 31 систему организма, шесть типов визуализации и 21 клиническую область на английском и семи основных индийских языках. Мы также предлагаем ArogyaSutra — многомодульную архитектуру на основе актора-критика, которая интегрирует привязку к инструментам с механизмами двойной памяти для поэтапного принятия решений с учётом рассуждений и использует сохранённые траектории симуляции актора-критика для дистилляции. Эксперименты показывают, что наш набор данных и архитектура повышают точность многоязычных медицинских рассуждений на всех индийских языках, при этом абляционные исследования подтверждают вклад каждого компонента. Исходный код и набор данных доступны по адресу: https://iitp-cse.github.io/ArogyaSutra/

English

Multimodal Large Language Models (MLLMs) have shown promising reasoning capabilities in general domains, yet their performance remains limited in specialized settings such as healthcare, especially in multilingual and low-resource scenarios. This gap is critical in regions like rural India, where patients often express complex medical queries in native Indic languages and rely on multimodal inputs such as medical images. Existing English-centric MLLMs struggle to support such use cases, limiting equitable access to AI-driven healthcare assistance. To address this challenge, we introduce ArogyaBodha, a large-scale multilingual multimodal medical question-answer dataset constructed from eight heterogeneous sources, covering 31 body systems, six imaging modalities, and 21 clinical domains across English and seven major Indian languages. We further propose ArogyaSutra, an actor-critic-based multi-agent framework that integrates tool grounding with dual-memory mechanisms for step-wise, reasoning-aware decision making, and uses stored actor-critic simulation trajectories for distillation. Experiments show that our dataset and framework improve multilingual medical reasoning accuracy across all Indic languages, with ablations validating the contribution of each component. The source code and dataset are available at: https://iitp-cse.github.io/ ArogyaSutra/