MedSkillAudit: Un Marco de Auditoría Específico de Dominio para las Habilidades de los Agentes de Investigación Médica
MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
April 22, 2026
Autores: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI
Resumen
**Antecedentes:** Las habilidades de agentes se implementan cada vez más como unidades de capacidad modulares y reutilizables en sistemas de agentes de IA. Las habilidades de agentes de investigación médica requieren salvaguardias más allá de la evaluación de propósito general, incluyendo integridad científica, validez metodológica, reproducibilidad y seguridad de límites. Este estudio desarrolló y evaluó preliminarmente un marco de auditoría específico de dominio para habilidades de agentes de investigación médica, con un enfoque en la fiabilidad frente a la revisión por expertos. **Métodos:** Desarrollamos MedSkillAudit (skill-auditor@1.0), un marco escalonado que evalúa la preparación para la liberación de habilidades antes de su implementación. Evaluamos 75 habilidades en cinco categorías de investigación médica (15 por categoría). Dos expertos asignaron de forma independiente una puntuación de calidad (0-100), una disposición ordinal de liberación (Listo para Producción / Liberación Limitada / Solo Beta / Rechazar) y una bandera de fallo de alto riesgo. La concordancia sistema-experto se cuantificó utilizando ICC(2,1) y el kappa de Cohen ponderado linealmente, comparándola con la línea base de concordancia inter-evaluadores humana. **Resultados:** La puntuación de calidad media de consenso fue de 72.4 (DE = 13.0); el 57.3% de las habilidades quedaron por debajo del umbral de Liberación Limitada. MedSkillAudit logró un ICC(2,1) = 0.449 (IC 95%: 0.250-0.610), superando el ICC inter-evaluadores humano de 0.300. La divergencia sistema-consenso en las puntuaciones (DE = 9.5) fue menor que la divergencia inter-expertos (DE = 12.4), sin sesgo direccional (Wilcoxon p = 0.613). Diseño de Protocolo mostró la concordancia más fuerte a nivel de categoría (ICC = 0.551); Escritura Académica mostró un ICC negativo (-0.567), reflejando un desajuste estructural entre la rúbrica y los expertos. **Conclusiones:** La auditoría específica de dominio previa a la implementación puede proporcionar una base práctica para gobernar las habilidades de agentes de investigación médica, complementando las comprobaciones de calidad de propósito general con flujos de trabajo de auditoría estructurados adaptados a casos de uso científicos.
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.