Counsel: Een meta-evaluatiedataset voor agentische taken

Samenvatting

Naarmate agentische systemen steeds complexere meerstapstaken aanpakken, vormt het evalueren van hun trajecten een belangrijk knelpunt – het handmatig annoteren van één enkel traject in populaire agentische benchmarks kan uren duren, waardoor het moeilijk wordt om evaluaties op te schalen voor het meten van prestaties of het samenstellen van trainingsdata. Dit heeft geleid tot een wijdverbreide afhankelijkheid van geautomatiseerde benaderingen zoals LLM-as-a-judge (LLMJ) om agenten op proces- en uitkomstniveau op grote schaal te bekritiseren, maar de degelijkheid van LLMJ-kritieken wordt vaak niet gemeten. Hier introduceren we Counsel, de eerste openbare dataset van meta-evaluaties voor agentische taken. Counsel bestaat uit procesgerichte kritieken van opengewicht LLMJ's op twee agent-benchmarks: tau-bench (klantenserviceagenten) en DA-Code (codeeragenten), en menselijke meta-evaluaties van deze kritieken. Menselijke annotatoren labelen kritieken op elke gemarkeerde fout als "precies juist", "juiste locatie maar zwakke redenering", of "had niet gemarkeerd moeten worden", met een betrouwbare interbeoordelaarsovereenstemming (Krippendorffs alpha van 0,78). De resulterende dataset stratificeert LLMJ-kritieken naar menselijke overeenstemming, zowel wat betreft foutlocatie in een traject als redeneerkwaliteit, en dient als waardevolle data om LLMJ's voor agenten te kalibreren, verbeteren of trainen. Bij het vergelijken van opengewicht beoordelaars zien we dat zowel capabelere beoordelaarsmodellen als meer redeneerinspanning leidden tot een betere menselijke overeenstemming, waarbij de sterkste beoordelaar ~88% overeenstemming bereikte op locatie en ~65% op redenering. Counsel wordt gegenereerd met behulp van opengewichtmodellen en is vrijelijk gelicentieerd voor breed gemeenschapsgebruik, waarvan we hopen dat het rigoureus onderzoek en verbeterde afstemming van LLM-gebaseerde evaluatoren voor agentische systemen mogelijk zal maken.

English

As agentic systems tackle increasingly complex multi-step tasks, evaluating their trajectories presents a major bottleneck - human annotation of a single trajectory on popular agentic benchmarks can take hours, making it difficult to scale evaluations for measuring performance or curating training data. This has driven widespread reliance on automated approaches such as LLM-as-a-judge (LLMJ) to critique agents at the process and outcome-levels at scale, however, the soundness of LLMJ critiques often goes unmeasured. Here, we introduce Counsel, the first public dataset of meta-evaluations for agentic tasks. Counsel consists of process-level critiques from open-weight LLMJs on two agent benchmarks: tau-bench (customer support agents) and DA-Code (coding agents), and human meta-evaluations of these critiques. Human annotators label critiques on each flagged error as "spot on", "correct location but poor reasoning", or "should not have flagged", achieving reliable inter-annotator agreement (Krippendorff's alpha of 0.78). The resulting dataset stratifies LLMJ critiques by human alignment across both error location within a trajectory and reasoning quality, serving as valuable data to calibrate, improve, or train LLMJs for agents. Comparing open-weight judges, we find that more capable judge models and more reasoning effort both enabled improved human agreement, with the strongest judge reaching ~88% agreement on location and ~65% on reasoning. Counsel is generated using open-weight models and is permissively licensed for broad community use, which we hope will enable rigorous study and improved alignment of LLM-based evaluators for agentic systems.