ChatPaper.aiChatPaper

MedSkillAudit: Предметно-ориентированная система аудита навыков агентов для медицинских исследований

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

April 22, 2026
Авторы: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI

Аннотация

**Актуальность:** Навыки агентов все чаще развертываются как модульные, повторно используемые единицы функциональности в системах ИИ-агентов. Навыки агентов для медицинских исследований требуют мер безопасности, выходящих за рамки общей оценки, включая научную добросовестность, методологическую валидность, воспроизводимость и безопасность границ применения. В данном исследовании была разработана и предварительно оценена предметно-ориентированная система аудита для навыков медицинских исследовательских агентов, с фокусом на надежность по сравнению с экспертной оценкой. **Методы:** Мы разработали MedSkillAudit (skill-auditor@1.0) — многоуровневую систему оценки готовности навыка к выпуску перед его развертыванием. Мы оценили 75 навыков из пяти категорий медицинских исследований (по 15 в каждой категории). Два эксперта независимо присваивали навыку оценку качества (0-100), порядковую категорию готовности к выпуску (Готов к продакшену / Ограниченный выпуск / Только бета-версия / Отклонен) и флаг критического отказа. Согласие между системой и экспертами количественно оценивалось с помощью ICC(2,1) и линейно-взвешенной каппы Коэна, в сравнении с базовым уровнем межэкспертного согласия. **Результаты:** Средняя консенсусная оценка качества составила 72.4 (SD = 13.0); 57.3% навыков оказались ниже порога категории "Ограниченный выпуск". MedSkillAudit показал ICC(2,1) = 0.449 (95% ДИ: 0.250-0.610), превысив межэкспертный ICC, равный 0.300. Расхождение между оценками системы и консенсусной оценкой (SD = 9.5) было меньше, чем межэкспертное расхождение (SD = 12.4), без систематической ошибки (критерий Уилкоксона, p = 0.613). Навыки категории "Дизайн протокола" показали наилучшее согласие на уровне категории (ICC = 0.551); в категории "Академическое письмо" наблюдался отрицательный ICC (-0.567), что отражает структурное несоответствие между критериями системы и экспертной оценкой. **Выводы:** Предметно-ориентированный предразвертываемый аудит может стать практической основой для управления навыками медицинских исследовательских агентов, дополняя проверки общего качества структурированными рабочими процессами аудита, адаптированными для научных задач.
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.
PDF21May 8, 2026