MedSkillAudit: Een Domeinspecifiek Auditraamwerk voor Vaardigheden van Onderzoeksagentschappen in de Medische Sector
MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
April 22, 2026
Auteurs: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI
Samenvatting
Achtergrond: Agentvaardigheden worden steeds vaker als modulaire, herbruikbare eenheden ingezet in AI-agentsystemen. Medische onderzoeksvaardigheden voor agents vereisen meer veiligheidsmaatregelen dan algemene evaluatie, waaronder wetenschappelijke integriteit, methodologische validiteit, reproduceerbaarheid en veiligheidsgrenzen. Deze studie ontwikkelde en evalueerde preliminair een domeinspecifiek auditkader voor medische onderzoeksvaardigheden van agents, met focus op betrouwbaarheid ten opzichte van expertbeoordeling. Methoden: We ontwikkelden MedSkillAudit (skill-auditor@1.0), een gelaagd kader dat de implementatiegereedheid van vaardigheden beoordeelt vóór ingebruikname. We evalueerden 75 vaardigheden verdeeld over vijf medische onderzoekscategorieën (15 per categorie). Twee experts kenden onafhankelijk een kwaliteitsscore (0-100), een ordinale implementatieclassificatie (Productie Gereed / Beperkte Release / Alleen Beta / Afkeuren) en een vlag voor hoog-risico falen toe. De overeenstemming tussen systeem en expert werd gekwantificeerd met ICC(2,1) en lineair gewogen Cohen's kappa, gebenchmarkt tegen de inter-beoordelaarsbasislijn van menselijke experts. Resultaten: De gemiddelde consensuskwaliteitsscore was 72.4 (SD = 13.0); 57.3% van de vaardigheden viel onder de drempel voor Beperkte Release. MedSkillAudit behaalde een ICC(2,1) = 0.449 (95% BI: 0.250-0.610), wat hoger was dan de inter-beoordelaars-ICC van 0.300 tussen experts. De divergentie tussen systeem- en consensusscores (SD = 9.5) was kleiner dan de divergentie tussen experts onderling (SD = 12.4), zonder directionele bias (Wilcoxon p = 0.613). Protocolontwerp liet de sterkste overeenstemming op categorieniveau zien (ICC = 0.551); Academisch Schrijven vertoonde een negatieve ICC (-0.567), wat een structurele mismatch tussen rubric en expert reflecteerde. Conclusies: Domeinspecifieke pre-implementatie audits kunnen een praktische basis vormen voor het beheren van medische onderzoeksvaardigheden van agents, door algemene kwaliteitscontroles aan te vullen met gestructureerde auditwerkstromen toegesneden op wetenschappelijke use cases.
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.