Claw-Eval: Hacia una Evaluación Confiable de Agentes Autónomos
Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
April 7, 2026
Autores: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang
cs.AI
Resumen
Los modelos de lenguaje a gran escala se despliegan cada vez más como agentes autónomos que ejecutan flujos de trabajo de múltiples pasos en entornos de software del mundo real. Sin embargo, los puntos de referencia existentes para agentes adolecen de tres limitaciones críticas: (1) evaluación opaca de trayectorias que solo verifica los resultados finales, (2) evaluación de seguridad y robustez insuficientemente especificada, y (3) cobertura modal limitada y paradigmas de interacción estrechos. Presentamos Claw-Eval, un conjunto de evaluación integral que aborda estas tres carencias. Comprende 300 tareas verificadas por humanos que abarcan 9 categorías en tres grupos (orquestación de servicios generales, percepción y generación multimodal, y diálogo profesional multiturno). Cada acción del agente se registra mediante tres canales de evidencia independientes (trazas de ejecución, registros de auditoría e instantáneas del entorno), permitiendo una calificación consciente de la trayectoria sobre 2.159 ítems de rúbrica detallados. El protocolo de puntuación evalúa Finalización, Seguridad y Robustez, reportando Puntuación Promedio, Aprobados@k y Aprobados^k a lo largo de tres intentos para distinguir la capacidad genuina de los resultados afortunados. Los experimentos en 14 modelos de vanguardia revelan que: (1) la evaluación opaca de trayectorias es sistemáticamente poco fiable, pasando por alto el 44% de las violaciones de seguridad y el 13% de los fallos de robustez que nuestra canalización híbrida detecta; (2) la inyección controlada de errores degrada principalmente la consistencia más que la capacidad máxima, con Aprobados^3 cayendo hasta un 24% mientras Aprobados@3 se mantiene estable; (3) el rendimiento multimodal varía notablemente, ya que la mayoría de los modelos rinden peor con vídeo que con documentos o imágenes, y ningún modelo domina en todas las modalidades. Más allá de la evaluación comparativa, Claw-Eval destaca direcciones prácticas para el desarrollo de agentes, arrojando luz sobre lo que se necesita para construir agentes que no solo sean capaces, sino también confiablemente desplegables.
English
Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.