AyurParam: Um Modelo de Linguagem Bilíngue de Última Geração para Ayurveda
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda
November 4, 2025
Autores: Mohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan
cs.AI
Resumo
Os grandes modelos de linguagem atuais se destacam em tarefas amplas e de propósito geral, mas apresentam desempenho consistentemente inferior quando expostos a domínios altamente especializados que exigem profunda expertise cultural, linguística e temática. Em particular, sistemas médicos tradicionais como o Ayurveda incorporam séculos de conhecimento textual e clínico nuances que os LLMs convencionais não conseguem interpretar ou aplicar com precisão. Apresentamos o AyurParam-2.9B, um modelo de linguagem bilíngue e especializado em domínio, refinado a partir do Param-1-2.9B usando um extenso conjunto de dados de Ayurveda criteriosamente curado por especialistas, abrangendo textos clássicos e orientações clínicas. O conjunto de dados do AyurParam incorpora Q&A contextual, de raciocínio e no estilo objetivo em inglês e hindi, com protocolos rigorosos de anotação para precisão factual e clareza instrucional. Avaliado no BhashaBench-Ayur, o AyurParam não apenas supera todos os modelos de código aberto ajustados por instrução em sua classe de tamanho (1,5–3B de parâmetros), mas também demonstra desempenho competitivo ou superior em comparação com modelos muito maiores. Os resultados do AyurParam destacam a necessidade de uma adaptação de domínio autêntica e supervisão de alta qualidade para oferecer IA confiável e culturalmente congruente para conhecimentos médicos especializados.
English
Current large language models excel at broad, general-purpose tasks, but
consistently underperform when exposed to highly specialized domains that
require deep cultural, linguistic, and subject-matter expertise. In particular,
traditional medical systems such as Ayurveda embody centuries of nuanced
textual and clinical knowledge that mainstream LLMs fail to accurately
interpret or apply. We introduce AyurParam-2.9B, a domain-specialized,
bilingual language model fine-tuned from Param-1-2.9B using an extensive,
expertly curated Ayurveda dataset spanning classical texts and clinical
guidance. AyurParam's dataset incorporates context-aware, reasoning, and
objective-style Q&A in both English and Hindi, with rigorous annotation
protocols for factual precision and instructional clarity. Benchmarked on
BhashaBench-Ayur, AyurParam not only surpasses all open-source
instruction-tuned models in its size class (1.5--3B parameters), but also
demonstrates competitive or superior performance compared to much larger
models. The results from AyurParam highlight the necessity for authentic domain
adaptation and high-quality supervision in delivering reliable, culturally
congruent AI for specialized medical knowledge.