ChatPaper.aiChatPaper

AyurParam: Ein hochmodernes zweisprachiges Sprachmodell für Ayurveda

AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

November 4, 2025
papers.authors: Mohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan
cs.AI

papers.abstract

Aktuelle große Sprachmodelle glänzen bei breiten, allgemeinen Aufgaben, schneiden jedoch durchweg schlechter ab, wenn sie mit hochspezialisierten Domänen konfrontiert werden, die tiefgehende kulturelle, linguistische und fachliche Expertise erfordern. Insbesondere verkörpern traditionelle Medizinsysteme wie Ayurveda jahrhundertealtes, nuanciertes textuelles und klinisches Wissen, das Mainstream-LLMs nicht präzise interpretieren oder anwenden können. Wir stellen AyurParam-2.9B vor, ein domänenspezialisiertes, zweisprachiges Sprachmodell, das aus Param-1-2.9B mittels Feinabstimmung auf einen umfangreichen, fachkundig kuratierten Ayurveda-Datensatz entwickelt wurde. Dieser Datensatz umfasst klassische Texte und klinische Leitlinien. Der Datensatz von AyurParam integriert kontextbewusste, reasoning-basierte und auf objektive Antworten ausgerichtete Frage-Antwort-Paare sowohl auf Englisch als auch auf Hindi, wobei strenge Annotationsprotokolle für faktische Genauigkeit und instruktionale Klarheit angewendet wurden. Im Benchmark-Test auf BhashaBench-Ayur übertrifft AyurParam nicht nur alle quelloffenen, instruktions-feingestimmten Modelle seiner Größenklasse (1,5–3 Mrd. Parameter), sondern zeigt auch eine gleichwertige oder überlegene Leistung im Vergleich zu deutlich größeren Modellen. Die Ergebnisse mit AyurParam unterstreichen die Notwendigkeit einer authentischen Domänenadaption und hochwertigen Supervision, um zuverlässige, kulturell kongruente KI für spezialisiertes medizinisches Wissen bereitzustellen.
English
Current large language models excel at broad, general-purpose tasks, but consistently underperform when exposed to highly specialized domains that require deep cultural, linguistic, and subject-matter expertise. In particular, traditional medical systems such as Ayurveda embody centuries of nuanced textual and clinical knowledge that mainstream LLMs fail to accurately interpret or apply. We introduce AyurParam-2.9B, a domain-specialized, bilingual language model fine-tuned from Param-1-2.9B using an extensive, expertly curated Ayurveda dataset spanning classical texts and clinical guidance. AyurParam's dataset incorporates context-aware, reasoning, and objective-style Q&A in both English and Hindi, with rigorous annotation protocols for factual precision and instructional clarity. Benchmarked on BhashaBench-Ayur, AyurParam not only surpasses all open-source instruction-tuned models in its size class (1.5--3B parameters), but also demonstrates competitive or superior performance compared to much larger models. The results from AyurParam highlight the necessity for authentic domain adaptation and high-quality supervision in delivering reliable, culturally congruent AI for specialized medical knowledge.
PDF31December 2, 2025