IndicMedDialog: Um Conjunto de Dados Paralelo de Diálogo Médico de Múltiplas Rodadas para Assistência Médica Acessível em Línguas Indianas
IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages
May 13, 2026
Autores: Shubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel
cs.AI
Resumo
A maioria dos sistemas de diálogo médico existentes opera em um paradigma de pergunta-resposta de turno único ou depende de conjuntos de dados baseados em modelos, limitando o realismo conversacional e a aplicabilidade multilíngue. Apresentamos o IndicMedDialog, um conjunto de dados paralelo de diálogos médicos com múltiplos turnos, abrangendo o inglês e nove línguas índicas: Assamês, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tâmil, Telugu e Urdu. O conjunto de dados estende o MDDial com consultas sintéticas geradas por LLM, traduzidas usando o TranslateGemma, verificadas por falantes nativos e refinadas por meio de um pipeline de pós-processamento ciente de roteiro para corrigir erros fonéticos, lexicais e de espaçamento de caracteres. Com base nesse conjunto de dados, ajustamos o IndicMedLM por meio de adaptação eficiente em parâmetros de um modelo de linguagem pequeno quantizado, incorporando pré-contexto opcional do paciente para personalizar a elicitação de sintomas em múltiplos turnos. Avaliamos em relação a baselines multilíngues zero-shot, realizamos análise sistemática de erros em dez línguas e validamos a plausibilidade clínica por meio de avaliação de especialistas médicos.
English
Most existing medical dialogue systems operate in a single-turn question--answering paradigm or rely on template-based datasets, limiting conversational realism and multilingual applicability. We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages: Assamese, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tamil, Telugu, and Urdu. The dataset extends MDDial with LLM-generated synthetic consultations, translated using TranslateGemma, verified by native speakers, and refined through a script-aware post-processing pipeline to correct phonetic, lexical, and character-spacing errors. Building on this dataset, we fine-tune IndicMedLM via parameter-efficient adaptation of a quantized small language model, incorporating optional patient pre-context to personalise multi-turn symptom elicitation. We evaluate against zero-shot multilingual baselines, conduct systematic error analysis across ten languages, and validate clinical plausibility through medical expert evaluation.