Claw-Eval: Verso una Valutazione Affidabile degli Agenti Autonomi

Abstract

I modelli linguistici di grandi dimensioni sono sempre più impiegati come agenti autonomi che eseguono flussi di lavoro multi-step in ambienti software reali. Tuttavia, i benchmark esistenti per agenti presentano tre limitazioni critiche: (1) valutazione opaca delle traiettorie che verifica solo gli output finali, (2) valutazione della sicurezza e della robustezza sotto-specificata, e (3) copertura modale e paradigmi di interazione limitati. Introduciamo Claw-Eval, una suite di valutazione end-to-end che affronta tutte e tre le lacune. Essa comprende 300 task verificati da esseri umani, suddivisi in 9 categorie appartenenti a tre gruppi (orchestrazione generale dei servizi, percezione e generazione multimodale, e dialogo professionale multi-turn). Ogni azione dell'agente viene registrata attraverso tre canali di evidenza indipendenti (tracce di esecuzione, log di audit e snapshot dell'ambiente), consentendo una valutazione consapevole della traiettoria su 2.159 criteri di giudizio granulari. Il protocollo di punteggio valuta Completamento, Sicurezza e Robustezza, riportando Punteggio Medio, Pass@k e Pass^k su tre prove per distinguere le capacità genuine dai risultati fortunati. Esperimenti su 14 modelli all'avanguardia rivelano che: (1) la valutazione opaca della traiettoria è sistematicamente inaffidabile, poiché non rileva il 44% delle violazioni di sicurezza e il 13% dei fallimenti di robustezza che la nostra pipeline ibrida intercetta; (2) l'iniezione controllata di errori degrada principalmente la consistenza piuttosto che la capacità di picco, con Pass^3 che cala fino al 24% mentre Pass@3 rimane stabile; (3) le prestazioni multimodali variano drasticamente, con la maggior parte dei modelli che performa peggio sui video rispetto a documenti o immagini, e nessun singolo modello domina in tutte le modalità. Oltre al benchmarking, Claw-Eval evidenzia direzioni operative per lo sviluppo di agenti, chiarendo cosa serve per costruire agenti non solo capaci, ma anche affidabili da distribuire.

English

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.

Claw-Eval: Verso una Valutazione Affidabile degli Agenti Autonomi

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Abstract

Support