AyurParam: Een Geavanceerd Tweetalig Taalmodel voor Ayurveda
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda
November 4, 2025
Auteurs: Mohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan
cs.AI
Samenvatting
Huidige grote taalmodellen blinken uit in brede, algemene taken, maar presteren consequent ondermaats wanneer ze worden blootgesteld aan zeer gespecialiseerde domeinen die diepgaande culturele, linguïstische en vakinhoudelijke expertise vereisen. Traditionele medische systemen zoals Ayurveda belichamen in het bijzonder eeuwenlang genuanceerde tekstuele en klinische kennis waar mainstream LLM's niet accuraat in slagen te interpreteren of toe te passen. Wij introduceren AyurParam-2.9B, een domein-gespecialiseerd, tweetalig taalmodel verfijnd vanuit Param-1-2.9B met behulp van een uitgebreide, deskundig samengestelde Ayurveda-dataset die klassieke teksten en klinische richtlijnen omvat. De dataset van AyurParam integreert contextbewust, redeneer- en objectief-stijl vraag-en-antwoord in zowel Engels als Hindi, met rigoureuze annotatieprotocollen voor feitelijke precisie en instructieve helderheid. Gebenchmarkt op BhashaBench-Ayur, overtreft AyurParam niet alleen alle open-source instructie-verfijnde modellen in zijn grootteklasse (1.5–3B parameters), maar demonstreert ook competitieve of superieure prestaties in vergelijking met veel grotere modellen. De resultaten van AyurParam benadrukken de noodzaak van authentieke domeinadaptatie en hoogwaardige supervisie voor het leveren van betrouwbare, cultureel congruente AI voor gespecialiseerde medische kennis.
English
Current large language models excel at broad, general-purpose tasks, but
consistently underperform when exposed to highly specialized domains that
require deep cultural, linguistic, and subject-matter expertise. In particular,
traditional medical systems such as Ayurveda embody centuries of nuanced
textual and clinical knowledge that mainstream LLMs fail to accurately
interpret or apply. We introduce AyurParam-2.9B, a domain-specialized,
bilingual language model fine-tuned from Param-1-2.9B using an extensive,
expertly curated Ayurveda dataset spanning classical texts and clinical
guidance. AyurParam's dataset incorporates context-aware, reasoning, and
objective-style Q&A in both English and Hindi, with rigorous annotation
protocols for factual precision and instructional clarity. Benchmarked on
BhashaBench-Ayur, AyurParam not only surpasses all open-source
instruction-tuned models in its size class (1.5--3B parameters), but also
demonstrates competitive or superior performance compared to much larger
models. The results from AyurParam highlight the necessity for authentic domain
adaptation and high-quality supervision in delivering reliable, culturally
congruent AI for specialized medical knowledge.