ChatPaper.aiChatPaper

MedSkillAudit: 医療研究エージェントスキル向けドメイン特化監査フレームワーク

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

April 22, 2026
著者: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie
cs.AI

要旨

背景:AIエージェントシステムにおいて、エージェントスキルはモジュール化され再利用可能な能力単位として展開される機会が増えている。医学研究エージェントスキルには、一般的な評価に加えて、科学的誠実性、方法論的正しさ、再現性、限界安全性といった保護措置が求められる。本研究では、医学研究エージェントスキル向けのドメイン特化型監査フレームワークを開発し、専門家レビューに対する信頼性に焦点を当てて予備評価を行った。方法:展開前のスキルリリース適合性を評価する多層フレームワークであるMedSkillAudit(skill-auditor@1.0)を開発した。5つの医学研究カテゴリ(各カテゴリ15スキル、計75スキル)を評価対象とした。2名の専門家が独立して、品質スコア(0-100)、順序尺度のリリース区分(本番環境準備完了 / 限定公開 / ベタ版のみ / 却下)、および高リスク失敗フラグを割り当てた。システムと専門家の一致度は、ICC(2,1)および線形重み付きCohen's kappaを用いて定量化し、人間による評価者間一致度をベンチマークとして比較した。結果:平均合意品質スコアは72.4(SD = 13.0)であり、57.3%のスキルが「限定公開」の閾値を下回った。MedSkillAuditのICC(2,1)は0.449(95% CI: 0.250-0.610)であり、評価者間のICC 0.300を上回った。システムと合意スコアの差(SD = 9.5)は、専門家間の差(SD = 12.4)よりも小さく、方向性の偏りは認められなかった(Wilcoxon p = 0.613)。カテゴリ別では「プロトコル設計」が最も強い一致度を示した(ICC = 0.551)。「学術論文執筆」は負のICC(-0.567)を示し、構造化評価基準と専門家判断の不一致が浮き彫りとなった。結論:ドメイン特化型の展開前監査は、医学研究エージェントスキルを管理する実用的な基盤を提供しうる。一般的な品質チェックを補完する、科学的使用事例に特化した構造化された監査ワークフローとして機能することが示唆された。
English
Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.
PDF21May 8, 2026