AyurParam : un modèle de linguistique bilingue de pointe pour l'Ayurved
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda
November 4, 2025
papers.authors: Mohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan
cs.AI
papers.abstract
Les grands modèles de langage actuels excellent dans des tâches générales, mais affichent systématiquement des performances inférieures lorsqu'ils sont confrontés à des domaines hautement spécialisés nécessitant une expertise culturelle, linguistique et technique approfondie. Les systèmes médicaux traditionnels comme l'Ayurvede incarnent notamment des siècles de connaissances textuelles et cliniques nuancées que les LLM grand public ne parviennent pas à interpréter ou appliquer avec précision. Nous présentons AyurParam-2.9B, un modèle linguistique bilingue spécialisé, affiné à partir de Param-1-2.9B grâce à un vaste jeu de données ayurvédiques soigneusement constitué par des experts, couvrant des textes classiques et des directives cliniques. Le jeu de données d'AyurParam intègre des questions-réponses contextuelles, raisonnées et de type objectif en anglais et en hindi, avec des protocoles d'annotation rigoureux pour une précision factuelle et une clarté pédagogique. Évalué sur BhashaBench-Ayur, AyurParam surpasse non seulement tous les modèles open-source optimisés pour les instructions dans sa catégorie (1,5 à 3 milliards de paramètres), mais démontre également des performances compétitives ou supérieures à des modèles beaucoup plus volumineux. Les résultats d'AyurParam soulignent la nécessité d'une adaptation domainale authentique et d'une supervision de haute qualité pour fournir une IA fiable et culturellement congruente dédiée aux connaissances médicales spécialisées.
English
Current large language models excel at broad, general-purpose tasks, but
consistently underperform when exposed to highly specialized domains that
require deep cultural, linguistic, and subject-matter expertise. In particular,
traditional medical systems such as Ayurveda embody centuries of nuanced
textual and clinical knowledge that mainstream LLMs fail to accurately
interpret or apply. We introduce AyurParam-2.9B, a domain-specialized,
bilingual language model fine-tuned from Param-1-2.9B using an extensive,
expertly curated Ayurveda dataset spanning classical texts and clinical
guidance. AyurParam's dataset incorporates context-aware, reasoning, and
objective-style Q&A in both English and Hindi, with rigorous annotation
protocols for factual precision and instructional clarity. Benchmarked on
BhashaBench-Ayur, AyurParam not only surpasses all open-source
instruction-tuned models in its size class (1.5--3B parameters), but also
demonstrates competitive or superior performance compared to much larger
models. The results from AyurParam highlight the necessity for authentic domain
adaptation and high-quality supervision in delivering reliable, culturally
congruent AI for specialized medical knowledge.