ClawHub Security Signals: cuando VirusTotal, el análisis estático y SkillSpector discrepan

Resumen

Las habilidades de agente dotan a los agentes de IA de instrucciones, herramientas, scripts, referencias y flujos de trabajo reutilizables, estableciendo un límite de seguridad distinto tanto de la seguridad del modelo como de la detección tradicional de malware en paquetes. ClawHub Security Signals es un conjunto de datos desinfectado de 67.453 versiones de habilidades públicas recientes de OpenClaw. Cada fila empareja el contenido redactado de SKILL.md y los archivos empaquetados desinfectados (cuando existen) con un veredicto final del registro ClawScan y evidencia de tres familias de escáneres: VirusTotal, análisis heurístico estático y NVIDIA SkillSpector. En lugar de estimar la prevalencia de habilidades maliciosas, estudiamos el desacuerdo entre escáneres. Los tres escáneres rara vez marcan las mismas habilidades: cualquier par se superpone en, como máximo, el 10,4% de sus positivos combinados, solo el 0,69% de las habilidades son marcadas por los tres, y el 81,9% de las habilidades marcadas son identificadas por un único escáner. El desacuerdo está estructurado por la superficie de ataque. SkillSpector, que emite advertencias semánticas de riesgo agentivo en lugar de señales de reputación de malware, resulta positivo para 19.209 de 25.504 filas sospechosas (75,3%), pero solo para 14 de 206 filas maliciosas (6,8%). La región de veredicto malicioso muestra el perfil inverso: 150 de 206 filas maliciosas (72,8%) son positivas en VirusTotal, lo que concuerda con la evidencia de malware en código empaquetado. Estos resultados muestran que la seguridad de las habilidades de agente requiere una gobernanza en capas, no decisiones de permitir/bloquear basadas en un único escáner. El corpus se publica como un conjunto de datos desinfectado de estándar de plata: las etiquetas son los veredictos automatizados del registro, no una verdad fundamental anotada por humanos, y la publicación representa una instantánea temprana y versionada destinada a apoyar a la comunidad mientras se desarrolla un subconjunto anotado por humanos. Se fomenta la investigación adicional, incluidos modelos adaptados para el triaje de seguridad de habilidades.

English

Agent skills extend AI agents with reusable instructions, tools, scripts, references, and workflows, establishing a security boundary distinct from both model safety and traditional package-malware detection. ClawHub Security Signals is a sanitized dataset of 67,453 latest public OpenClaw skill versions. Each row pairs redacted SKILL.md content and sanitized bundled files where present with a final ClawScan registry verdict and evidence from three scanner families: VirusTotal, static heuristic analysis, and NVIDIA SkillSpector. Rather than estimating malicious-skill prevalence, we study scanner disagreement. The three scanners rarely flag the same skills: any pair overlaps on at most 10.4% of their combined positives, only 0.69% of skills are flagged by all three, and 81.9% of flagged skills are identified by a single scanner. The disagreement is structured by attack surface. SkillSpector, which raises semantic agentic-risk advisories rather than malware-reputation signals, is positive for 19,209 of 25,504 suspicious rows (75.3%) but only 14 of 206 malicious rows (6.8%). The malicious-verdict region shows the inverse profile: 150 of 206 malicious rows (72.8%) are VirusTotal-positive, consistent with bundled-code malware evidence. These results show that agent-skill security requires layered governance, not single-scanner allow/block decisions. The corpus is released as a sanitized silver-standard dataset: labels are the registry's automated verdicts, not human-annotated ground truth, and the release represents an early, versioned snapshot intended to support the community while a human-annotated subset is developed. Further research is encouraged, including models tailored for skill-security triage.