ChatPaper.aiChatPaper

AyurParam: Un Modelo de Lenguaje Bilingüe de Vanguardia para el Ayurveda

AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

November 4, 2025
Autores: Mohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan
cs.AI

Resumen

Los grandes modelos lingüísticos actuales sobresalen en tareas generales y amplias, pero presentan un rendimiento consistentemente inferior cuando se enfrentan a dominios altamente especializados que requieren un profundo conocimiento cultural, lingüístico y temático. En particular, sistemas médicos tradicionales como el Ayurveda incorporan siglos de conocimiento textual y clínico matizado que los LLM convencionales no logran interpretar o aplicar con precisión. Presentamos AyurParam-2.9B, un modelo lingüístico bilingüe especializado en este dominio, afinado a partir de Param-1-2.9B utilizando un extenso conjunto de datos de Ayurveda curado meticulosamente por expertos, que abarca textos clásicos y guías clínicas. El conjunto de datos de AyurParam incorpora preguntas y respuestas de estilo objetivo, de razonamiento y conscientes del contexto, tanto en inglés como en hindi, con protocolos de anotación rigurosos para garantizar la precisión factual y la claridad instructiva. Evaluado en BhashaBench-Ayur, AyurParam no solo supera a todos los modelos de código abierto ajustados por instrucción de su categoría de tamaño (1.5-3B parámetros), sino que también demuestra un rendimiento competitivo o superior en comparación con modelos mucho más grandes. Los resultados de AyurParam subrayan la necesidad de una adaptación de dominio auténtica y una supervisión de alta calidad para ofrecer una IA confiable y culturalmente congruente para el conocimiento médico especializado.
English
Current large language models excel at broad, general-purpose tasks, but consistently underperform when exposed to highly specialized domains that require deep cultural, linguistic, and subject-matter expertise. In particular, traditional medical systems such as Ayurveda embody centuries of nuanced textual and clinical knowledge that mainstream LLMs fail to accurately interpret or apply. We introduce AyurParam-2.9B, a domain-specialized, bilingual language model fine-tuned from Param-1-2.9B using an extensive, expertly curated Ayurveda dataset spanning classical texts and clinical guidance. AyurParam's dataset incorporates context-aware, reasoning, and objective-style Q&A in both English and Hindi, with rigorous annotation protocols for factual precision and instructional clarity. Benchmarked on BhashaBench-Ayur, AyurParam not only surpasses all open-source instruction-tuned models in its size class (1.5--3B parameters), but also demonstrates competitive or superior performance compared to much larger models. The results from AyurParam highlight the necessity for authentic domain adaptation and high-quality supervision in delivering reliable, culturally congruent AI for specialized medical knowledge.
PDF31December 2, 2025