MedSkillAudit: Ein domänenspezifisches Audit-Framework für Fähigkeiten medizinischer Forschungsagenten
MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
April 22, 2026
Autoren: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI
Zusammenfassung
Hintergrund: Agenten-Fähigkeiten werden zunehmend als modulare, wiederverwendbare Funktionseinheiten in KI-Agenten-Systemen eingesetzt. Medizinische Forschungsfähigkeiten erfordern über allgemeine Evaluierungen hinausgehende Sicherheitsvorkehrungen, einschließlich wissenschaftlicher Integrität, methodischer Validität, Reproduzierbarkeit und Grenzsicherheit. Diese Studie entwickelte und evaluierte vorläufig einen domänenspezifischen Audit-Rahmen für medizinische Forschungsagenten-Fähigkeiten, mit Fokus auf die Zuverlässigkeit im Vergleich zur Expertenbewertung. Methoden: Wir entwickelten MedSkillAudit (skill-auditor@1.0), einen gestaffelten Rahmen zur Bewertung der Einsatzreife von Fähigkeiten vor der Bereitstellung. Wir evaluierten 75 Fähigkeiten aus fünf medizinischen Forschungsbereichen (je 15 pro Kategorie). Zwei Experten vergaben unabhängig einen Qualitätsscore (0-100), eine ordinale Freigabeentscheidung (Produktionsreif / Eingeschränkter Einsatz / Nur Beta / Ablehnen) und ein Hochrisiko-Flag. Die System-Experten-Übereinstimmung wurde mittels ICC(2,1) und gewichtetem Cohen's Kappa quantifiziert und mit der menschlichen Inter-Rater-Basislinie verglichen. Ergebnisse: Der mittlere Konsens-Qualitätsscore betrug 72,4 (SD = 13,0); 57,3 % der Fähigkeiten lagen unter dem Schwellenwert für Eingeschränkten Einsatz. MedSkillAudit erreichte ICC(2,1) = 0,449 (95 %-KI: 0,250–0,610) und übertraf damit die menschliche Inter-Rater-ICC von 0,300. Die System-Konsens-Score-Abweichung (SD = 9,5) war geringer als die Inter-Experten-Abweichung (SD = 12,4) ohne Richtungstendenz (Wilcoxon p = 0,613). Protokolldesign zeigte die stärkste kategoriespezifische Übereinstimmung (ICC = 0,551); Akademisches Schreiben zeigte einen negativen ICC (-0,567), was auf eine strukturelle Bewertungsraster-Experten-Diskrepanz hinweist. Schlussfolgerungen: Domänenspezifische Pre-Deployment-Audits können eine praktische Grundlage für das Governance medizinischer Forschungsagenten-Fähigkeiten bieten und ergänzen allgemeine Qualitätsprüfungen durch strukturierte Audit-Workflows, die auf wissenschaftliche Anwendungsfälle zugeschnitten sind.
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.