Counsel : un jeu de données de méta-évaluation pour les tâches agentiques

Résumé

Alors que les systèmes agentiques s’attaquent à des tâches multi-étapes de plus en plus complexes, l’évaluation de leurs trajectoires constitue un goulot d’étranglement majeur — l’annotation humaine d’une seule trajectoire sur des benchmarks agentiques populaires peut prendre des heures, ce qui rend difficile le passage à l’échelle des évaluations pour mesurer la performance ou constituer des données d’entraînement. Cela a conduit à une large dépendance vis-à-vis d’approches automatisées telles que le LLM comme juge (LLMJ) pour critiquer les agents au niveau du processus et des résultats à grande échelle. Cependant, la validité des critiques du LLMJ est rarement mesurée. Nous présentons ici Counsel, le premier jeu de données public de méta-évaluations pour des tâches agentiques. Counsel se compose de critiques au niveau du processus provenant de LLMJ à poids ouverts sur deux benchmarks agentiques : tau-bench (agents de support client) et DA-Code (agents de codage), ainsi que de méta-évaluations humaines de ces critiques. Les annotateurs humains étiquettent chaque critique sur chaque erreur signalée comme « exacte », « emplacement correct mais raisonnement faible » ou « n’aurait pas dû être signalée », avec un accord inter-annotateurs fiable (alpha de Krippendorff de 0,78). Le jeu de données obtenu stratifie les critiques du LLMJ en fonction de l’alignement humain, à la fois sur la localisation de l’erreur dans une trajectoire et sur la qualité du raisonnement, constituant ainsi des données précieuses pour calibrer, améliorer ou entraîner les LLMJ pour les agents. En comparant les juges à poids ouverts, nous constatons que des modèles de juges plus performants et un effort de raisonnement accru améliorent tous deux l’accord humain, le juge le plus fort atteignant environ 88 % d’accord sur la localisation et environ 65 % sur le raisonnement. Counsel est généré à l’aide de modèles à poids ouverts et est distribué sous une licence permissive pour une large utilisation par la communauté, ce qui, nous l’espérons, permettra une étude rigoureuse et un meilleur alignement des évaluateurs basés sur LLM pour les systèmes agentiques.

English

As agentic systems tackle increasingly complex multi-step tasks, evaluating their trajectories presents a major bottleneck - human annotation of a single trajectory on popular agentic benchmarks can take hours, making it difficult to scale evaluations for measuring performance or curating training data. This has driven widespread reliance on automated approaches such as LLM-as-a-judge (LLMJ) to critique agents at the process and outcome-levels at scale, however, the soundness of LLMJ critiques often goes unmeasured. Here, we introduce Counsel, the first public dataset of meta-evaluations for agentic tasks. Counsel consists of process-level critiques from open-weight LLMJs on two agent benchmarks: tau-bench (customer support agents) and DA-Code (coding agents), and human meta-evaluations of these critiques. Human annotators label critiques on each flagged error as "spot on", "correct location but poor reasoning", or "should not have flagged", achieving reliable inter-annotator agreement (Krippendorff's alpha of 0.78). The resulting dataset stratifies LLMJ critiques by human alignment across both error location within a trajectory and reasoning quality, serving as valuable data to calibrate, improve, or train LLMJs for agents. Comparing open-weight judges, we find that more capable judge models and more reasoning effort both enabled improved human agreement, with the strongest judge reaching ~88% agreement on location and ~65% on reasoning. Counsel is generated using open-weight models and is permissively licensed for broad community use, which we hope will enable rigorous study and improved alignment of LLM-based evaluators for agentic systems.