ClawHub 보안 신호: VirusTotal, 정적 분석 및 SkillSpector가 일치하지 않을 때
ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree
May 31, 2026
저자: Vincent Koc, Patrick Erichsen, Jacob Tomlinson, Agustin Rivera, Michael Appel, Nir Paz
cs.AI
초록
에이전트 스킬은 재사용 가능한 지침, 도구, 스크립트, 참조 및 워크플로우를 통해 AI 에이전트를 확장하며, 모델 안전성과 전통적인 패키지 악성코드 탐지 모두와 구별되는 보안 경계를 설정한다. ClawHub Security Signals는 67,453개의 최신 공개 OpenClaw 스킬 버전으로 구성된 정제된 데이터셋이다. 각 행은 편집된 SKILL.md 내용과 함께 제공되는 정제된 번들 파일을 최종 ClawScan 레지스트리 판정 및 VirusTotal, 정적 휴리스틱 분석, NVIDIA SkillSpector의 세 가지 스캐너 패밀리로부터의 증거와 짝지은 것이다.
악성 스킬의 유행을 추정하기보다, 우리는 스캐너 간 불일치를 연구한다. 세 스캐너는 동일한 스킬을 거의 플래그 지정하지 않으며, 임의의 두 스캐너가 공유하는 양성은 전체 양성 합계의 최대 10.4%에 불과하고, 모든 세 스캐너에 의해 플래그 지정된 스킬은 0.69%에 불과하며, 플래그 지정된 스킬의 81.9%는 단일 스캐너에 의해 식별된다. 이러한 불일치는 공격 표면에 따라 구조화되어 있다. 악성코드 평판 신호가 아닌 의미론적 에이전트 위험 권고를 제기하는 SkillSpector는 의심스러운 행 25,504개 중 19,209개(75.3%)에서 양성이나 악성 행 206개 중 14개(6.8%)에서만 양성을 나타낸다. 악성 판정 영역은 역프로필을 보여준다: 악성 행 206개 중 150개(72.8%)가 VirusTotal 양성이며, 이는 번들 코드 악성코드 증거와 일치한다.
이러한 결과는 에이전트 스킬 보안이 단일 스캐너의 허용/차단 결정이 아닌 계층적 거버넌스를 필요로 함을 보여준다. 해당 코퍼스는 정제된 실버 스탠다드 데이터셋으로 공개된다: 레이블은 인간 주석 기반 정답이 아닌 레지스트리의 자동 판정이며, 이 공개는 인간이 주석을 단 하위 집합이 개발되는 동안 커뮤니티를 지원하기 위한 초기 버전별 스냅샷을 나타낸다. 스킬 보안 분류에 특화된 모델을 포함한 추가 연구가 권장된다.
English
Agent skills extend AI agents with reusable instructions, tools, scripts, references, and workflows, establishing a security boundary distinct from both model safety and traditional package-malware detection. ClawHub Security Signals is a sanitized dataset of 67,453 latest public OpenClaw skill versions. Each row pairs redacted SKILL.md content and sanitized bundled files where present with a final ClawScan registry verdict and evidence from three scanner families: VirusTotal, static heuristic analysis, and NVIDIA SkillSpector.
Rather than estimating malicious-skill prevalence, we study scanner disagreement. The three scanners rarely flag the same skills: any pair overlaps on at most 10.4% of their combined positives, only 0.69% of skills are flagged by all three, and 81.9% of flagged skills are identified by a single scanner. The disagreement is structured by attack surface. SkillSpector, which raises semantic agentic-risk advisories rather than malware-reputation signals, is positive for 19,209 of 25,504 suspicious rows (75.3%) but only 14 of 206 malicious rows (6.8%). The malicious-verdict region shows the inverse profile: 150 of 206 malicious rows (72.8%) are VirusTotal-positive, consistent with bundled-code malware evidence.
These results show that agent-skill security requires layered governance, not single-scanner allow/block decisions. The corpus is released as a sanitized silver-standard dataset: labels are the registry's automated verdicts, not human-annotated ground truth, and the release represents an early, versioned snapshot intended to support the community while a human-annotated subset is developed. Further research is encouraged, including models tailored for skill-security triage.