Claw-Eval : Vers une évaluation fiable des agents autonomes

Résumé

Les grands modèles de langage sont de plus en plus déployés en tant qu'agents autonomes exécutant des workflows multi-étapes dans des environnements logiciels réels. Cependant, les benchmarks existants pour les agents souffrent de trois limitations critiques : (1) une évaluation opaque des trajectoires qui ne vérifie que les résultats finaux, (2) une évaluation sous-spécifiée de la sécurité et de la robustesse, et (3) une couverture modale et des paradigmes d'interaction restreints. Nous présentons Claw-Eval, une suite d'évaluation de bout en bout abordant ces trois lacunes. Elle comprend 300 tâches vérifiées par des humains couvrant 9 catégories réparties en trois groupes (orchestration de services généraux, perception et génération multimodales, et dialogue professionnel multi-tours). Chaque action de l'agent est enregistrée via trois canaux de preuve indépendants (traces d'exécution, journaux d'audit et instantanés de l'environnement), permettant une évaluation prenant en compte la trajectoire sur 2 159 critères granulaires. Le protocole de notation évalue l'Achèvement, la Sécurité et la Robustesse, rapportant le Score Moyen, Pass@k et Pass^k sur trois essais pour distinguer la capacité réelle des résultats chanceux. Les expériences sur 14 modèles de pointe révèlent que : (1) l'évaluation opaque des trajectoires est systématiquement peu fiable, manquant 44 % des violations de sécurité et 13 % des échecs de robustesse que notre pipeline hybride détecte ; (2) l'injection contrôlée d'erreurs dégrade principalement la cohérence plutôt que la capacité maximale, avec Pass^3 chutant jusqu'à 24 % tandis que Pass@3 reste stable ; (3) les performances multimodales varient fortement, la plupart des modèles performant moins bien sur la vidéo que sur les documents ou les images, et aucun modèle unique ne dominant sur toutes les modalités. Au-delà du benchmarking, Claw-Eval met en lumière des pistes d'action pour le développement d'agents, éclairant ce qu'il faut pour construire des agents non seulement capables, mais déployables de manière fiable.

English

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.

Claw-Eval : Vers une évaluation fiable des agents autonomes

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Résumé

Support