ChatPaper.aiChatPaper

MedSkillAudit : Un Cadre d'Audit Spécifique au Domaine pour les Compétences des Agents de Recherche Médicale

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

April 22, 2026
Auteurs: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI

Résumé

**Contexte :** Les compétences d'agents sont de plus en plus déployées comme unités de capacités modulaires et réutilisables dans les systèmes d'agents IA. Les compétences des agents de recherche médicale nécessitent des garanties dépassant l'évaluation générale, incluant l'intégrité scientifique, la validité méthodologique, la reproductibilité et la sécurité des limites. Cette étude a développé et évalué préliminairement un cadre d'audit spécifique au domaine pour les compétences des agents de recherche médicale, en se concentrant sur la fiabilité par rapport à l'examen par des experts. **Méthodes :** Nous avons développé MedSkillAudit (skill-auditor@1.0), un cadre à plusieurs niveaux évaluant la maturité des compétences avant leur déploiement. Nous avons évalué 75 compétences réparties dans cinq catégories de recherche médicale (15 par catégorie). Deux experts ont indépendamment attribué un score de qualité (0-100), une décision ordinale de mise en release (Prêt pour la Production / Release Limitée / Version Bêta uniquement / Rejet) et un drapeau signalant un échec à haut risque. La concordance système-expert a été quantifiée à l'aide du CCI(2,1) et du kappa de Cohen pondéré linéaire, en la comparant à la ligne de base de l'accord inter-évaluateurs humains. **Résultats :** Le score de qualité consensuel moyen était de 72,4 (ÉT = 13,0) ; 57,3 % des compétences se situaient en dessous du seuil de Release Limitée. MedSkillAudit a atteint un CCI(2,1) = 0,449 (IC 95 % : 0,250-0,610), dépassant le CCI inter-évaluateurs humains de 0,300. L'écart entre les scores du système et le consensus (ÉT = 9,5) était plus faible que l'écart inter-expert (ÉT = 12,4), sans biais directionnel (test de Wilcoxon p = 0,613). La catégorie Conception de Protocole a montré la plus forte concordance (CCI = 0,551) ; la catégorie Rédaction Académique a montré un CCI négatif (-0,567), reflétant un décalage structurel entre la grille d'évaluation et l'expert. **Conclusions :** Un audit spécifique au domaine avant déploiement pourrait fournir une base pratique pour régir les compétences des agents de recherche médicale, complétant les contrôles de qualité généraux par des workflows d'audit structurés adaptés aux cas d'usage scientifique.
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.
PDF21May 8, 2026