ClawHub セキュリティシグナル:VirusTotal、静的解析、SkillSpectorが一致しない場合
ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree
May 31, 2026
著者: Vincent Koc, Patrick Erichsen, Jacob Tomlinson, Agustin Rivera, Michael Appel, Nir Paz
cs.AI
要旨
エージェントスキルは、AIエージェントに再利用可能な指示、ツール、スクリプト、参照情報、ワークフローを拡張し、モデルの安全性や従来のパッケージマルウェア検出とは異なるセキュリティ境界を確立する。ClawHub Security Signalsは、67,453個の最新の公開OpenClawスキルバージョンからなるサニタイズ済みデータセットである。各行は、編集済みのSKILL.mdコンテンツと、存在する場合はサニタイズされたバンドルファイルを、最終的なClawScanレジストリ判定および3つのスキャナファミリー(VirusTotal、静的ヒューリスティック分析、NVIDIA SkillSpector)からの証拠と組み合わせている。
悪意あるスキルの普及率を推定する代わりに、我々はスキャナ間の不一致を研究する。3つのスキャナが同じスキルをフラグすることはまれであり、任意のペアの組み合わせた陽性のうち最大10.4%しか重複せず、3つすべてでフラグされるスキルはわずか0.69%であり、フラグされたスキルの81.9%は単一のスキャナによって特定される。この不一致は攻撃面によって構造化されている。SkillSpectorは、マルウェア評判シグナルではなく意味論的なエージェントリスク勧告を発するものであり、25,504の疑わしい行のうち19,209(75.3%)で陽性であるが、206の悪意ある行のうちわずか14(6.8%)で陽性である。悪意判定領域は逆のプロファイルを示しており、206の悪意ある行のうち150(72.8%)がVirusTotal陽性であり、これはバンドルコードのマルウェア証拠と一致する。
これらの結果は、エージェントスキルのセキュリティには単一スキャナによる許可/ブロック判断ではなく、階層的なガバナンスが必要であることを示している。このコーパスはサニタイズされたシルバースタンダードデータセットとしてリリースされる。ラベルはレジストリの自動判定であり、人間が注釈付けたグラウンドトゥルースではなく、このリリースは初期のバージョン管理されたスナップショットであり、人間が注釈付けたサブセットが開発される間、コミュニティを支援することを目的としている。スキルセキュリティトリアージに特化したモデルを含む、さらなる研究が奨励される。
English
Agent skills extend AI agents with reusable instructions, tools, scripts, references, and workflows, establishing a security boundary distinct from both model safety and traditional package-malware detection. ClawHub Security Signals is a sanitized dataset of 67,453 latest public OpenClaw skill versions. Each row pairs redacted SKILL.md content and sanitized bundled files where present with a final ClawScan registry verdict and evidence from three scanner families: VirusTotal, static heuristic analysis, and NVIDIA SkillSpector.
Rather than estimating malicious-skill prevalence, we study scanner disagreement. The three scanners rarely flag the same skills: any pair overlaps on at most 10.4% of their combined positives, only 0.69% of skills are flagged by all three, and 81.9% of flagged skills are identified by a single scanner. The disagreement is structured by attack surface. SkillSpector, which raises semantic agentic-risk advisories rather than malware-reputation signals, is positive for 19,209 of 25,504 suspicious rows (75.3%) but only 14 of 206 malicious rows (6.8%). The malicious-verdict region shows the inverse profile: 150 of 206 malicious rows (72.8%) are VirusTotal-positive, consistent with bundled-code malware evidence.
These results show that agent-skill security requires layered governance, not single-scanner allow/block decisions. The corpus is released as a sanitized silver-standard dataset: labels are the registry's automated verdicts, not human-annotated ground truth, and the release represents an early, versioned snapshot intended to support the community while a human-annotated subset is developed. Further research is encouraged, including models tailored for skill-security triage.