ChatPaper.aiChatPaper

Auditoría de Seguridad Basada en Trayectorias para Clawdbot (OpenClaw)

A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

February 16, 2026
Autores: Tianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang
cs.AI

Resumen

Clawdbot es un agente de IA personal autoalojado que utiliza herramientas, con un amplio espacio de acción que abarca desde la ejecución local hasta flujos de trabajo mediados por la web, lo que plantea mayores preocupaciones de seguridad y protección bajo ambigüedad y direccionamiento adverso. Presentamos una evaluación centrada en trayectorias de Clawdbot a lo largo de seis dimensiones de riesgo. Nuestra suite de pruebas toma muestras y adapta ligeramente escenarios de benchmarks previos de seguridad de agentes (incluyendo ATBench y LPS-Bench) y los complementa con casos diseñados manualmente adaptados a la superficie de herramientas de Clawdbot. Registramos trayectorias de interacción completas (mensajes, acciones, argumentos/salidas de llamadas a herramientas) y evaluamos la seguridad utilizando tanto un juez de trayectorias automatizado (AgentDoG-Qwen3-4B) como revisión humana. En 34 casos canónicos, encontramos un perfil de seguridad no uniforme: el rendimiento es generalmente consistente en tareas centradas en la confiabilidad, mientras que la mayoría de los fallos surgen bajo intención poco especificada, objetivos abiertos o indicaciones de jailbreak de apariencia benigna, donde pequeñas interpretaciones erróneas pueden escalar hacia acciones de herramientas de mayor impacto. Complementamos los resultados generales con estudios de caso representativos y resumimos las características comunes de estos casos, analizando las vulnerabilidades de seguridad y los modos de fallo típicos que Clawdbot tiende a desencadenar en la práctica.
English
Clawdbot is a self-hosted, tool-using personal AI agent with a broad action space spanning local execution and web-mediated workflows, which raises heightened safety and security concerns under ambiguity and adversarial steering. We present a trajectory-centric evaluation of Clawdbot across six risk dimensions. Our test suite samples and lightly adapts scenarios from prior agent-safety benchmarks (including ATBench and LPS-Bench) and supplements them with hand-designed cases tailored to Clawdbot's tool surface. We log complete interaction trajectories (messages, actions, tool-call arguments/outputs) and assess safety using both an automated trajectory judge (AgentDoG-Qwen3-4B) and human review. Across 34 canonical cases, we find a non-uniform safety profile: performance is generally consistent on reliability-focused tasks, while most failures arise under underspecified intent, open-ended goals, or benign-seeming jailbreak prompts, where minor misinterpretations can escalate into higher-impact tool actions. We supplemented the overall results with representative case studies and summarized the commonalities of these cases, analyzing the security vulnerabilities and typical failure modes that Clawdbot is prone to trigger in practice.
PDF11February 19, 2026