Sinais de Segurança do ClawHub: Quando VirusTotal, Análise Estática e SkillSpector Discordam

Resumo

As habilidades de agentes estendem os agentes de IA com instruções, ferramentas, scripts, referências e fluxos de trabalho reutilizáveis, estabelecendo um limite de segurança distinto tanto da segurança do modelo quanto da detecção tradicional de malware em pacotes. O ClawHub Security Signals é um conjunto de dados sanitizados de 67.453 versões públicas recentes de habilidades do OpenClaw. Cada linha combina conteúdo editado de SKILL.md e arquivos empacotados sanitizados, quando presentes, com um veredito final do registro ClawScan e evidências de três famílias de scanners: VirusTotal, análise heurística estática e NVIDIA SkillSpector. Em vez de estimar a prevalência de habilidades maliciosas, estudamos a discordância entre scanners. Os três scanners raramente sinalizam as mesmas habilidades: qualquer par se sobrepõe em no máximo 10,4% de seus positivos combinados, apenas 0,69% das habilidades são sinalizadas pelos três, e 81,9% das habilidades sinalizadas são identificadas por um único scanner. A discordância é estruturada pela superfície de ataque. O SkillSpector, que emite avisos semânticos de risco agentivo em vez de sinais de reputação de malware, é positivo para 19.209 de 25.504 linhas suspeitas (75,3%), mas apenas 14 de 206 linhas maliciosas (6,8%). A região de veredito malicioso mostra o perfil inverso: 150 de 206 linhas maliciosas (72,8%) são positivas no VirusTotal, consistente com evidências de malware em código empacotado. Esses resultados mostram que a segurança de habilidades de agentes requer governança em camadas, e não decisões de permitir/bloquear baseadas em um único scanner. O corpus é liberado como um conjunto de dados sanitizados de padrão-prata: os rótulos são os vereditos automatizados do registro, não a verdade fundamental anotada por humanos, e a liberação representa um instantâneo inicial com versão, destinado a apoiar a comunidade enquanto um subconjunto anotado por humanos é desenvolvido. Pesquisas adicionais são incentivadas, incluindo modelos adaptados para triagem de segurança de habilidades.

English

Agent skills extend AI agents with reusable instructions, tools, scripts, references, and workflows, establishing a security boundary distinct from both model safety and traditional package-malware detection. ClawHub Security Signals is a sanitized dataset of 67,453 latest public OpenClaw skill versions. Each row pairs redacted SKILL.md content and sanitized bundled files where present with a final ClawScan registry verdict and evidence from three scanner families: VirusTotal, static heuristic analysis, and NVIDIA SkillSpector. Rather than estimating malicious-skill prevalence, we study scanner disagreement. The three scanners rarely flag the same skills: any pair overlaps on at most 10.4% of their combined positives, only 0.69% of skills are flagged by all three, and 81.9% of flagged skills are identified by a single scanner. The disagreement is structured by attack surface. SkillSpector, which raises semantic agentic-risk advisories rather than malware-reputation signals, is positive for 19,209 of 25,504 suspicious rows (75.3%) but only 14 of 206 malicious rows (6.8%). The malicious-verdict region shows the inverse profile: 150 of 206 malicious rows (72.8%) are VirusTotal-positive, consistent with bundled-code malware evidence. These results show that agent-skill security requires layered governance, not single-scanner allow/block decisions. The corpus is released as a sanitized silver-standard dataset: labels are the registry's automated verdicts, not human-annotated ground truth, and the release represents an early, versioned snapshot intended to support the community while a human-annotated subset is developed. Further research is encouraged, including models tailored for skill-security triage.