Een kwestie van TASTE: Verbetering van dekking en moeilijkheidsgraad van agentbenchmarks

Samenvatting

Naarmate de mogelijkheden van agenten toenemen, raken bestaande benchmarks, zoals τ²-Bench, steeds meer verzadigd. Toch blijft het construeren van nieuwe benchmarktaken complex, kostbaar en arbeidsintensief. Bovendien legt de standaardaanpak, waarbij scenario's eerst in natuurlijke taal worden beschreven en vervolgens worden omgezet in toolsequenties, slechts een beperkte subset vast van de toolgebruikpatronen die agenten toepassen. In dit artikel pakken we deze problemen aan door het taakconstructieproces om te keren. We stellen TASTE voor: Task Synthesis from Tool Sequence Evolution, een automatische methode die uitdagende taken genereert met een bredere tooldekkingsgraad. TASTE maakt gebruik van een Adaptief Contrastief n-grammodel dat is getraind op door LLM beoordeelde validiteitssignalen. Dit maakt het mogelijk om geldige toolsequenties te bemonsteren die een breed scala aan toolcombinaties bestrijken. Vervolgens selecteert TASTE representatieve sequenties uit de pool via clustering, zet ze om in volledige benchmarktaken en verfijnt ze door middel van iteratieve moeilijkheidsevolutie. Met behulp van TASTE construeren we τᶜ-Bench, een uitdagende uitbreiding van de drie domeinen van τ²-Bench. We evalueren 11 agent/gebruiker LLM-paren en vinden dat modellen die τ²-Bench bijna verzadigen, ernstige prestatieverlies lijden op onze taken (bijv. Gemini-3-Flash daalt van 0,82–0,94 naar 0,28–0,61). Naast de verhoogde moeilijkheidsgraad verdubbelen onze gegenereerde taken het aantal unieke toolcombinaties dat agenten moeten uitvoeren. Onze resultaten suggereren dat hoge scores op bestaande benchmarks vaak verzadiging weerspiegelen in plaats van robuust taakoplossend vermogen. Door de automatische generatie van moeilijke, hoogdekkende benchmarks maakt TASTE continue, schaalbare evaluatie van toekomstige agenten mogelijk.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.