Uma Questão de TASTE: Melhorando a Cobertura e Dificuldade de Benchmarks de Agentes

Resumo

À medida que as capacidades dos agentes avançam, benchmarks existentes, como o τ²-Bench, estão se tornando cada vez mais saturados. No entanto, construir novas tarefas de benchmark continua complexo, custoso e trabalhoso. Além disso, a abordagem padrão, na qual os cenários são primeiro escritos em linguagem natural e depois mapeados para sequências de ferramentas, captura apenas um subconjunto restrito dos padrões de uso de ferramentas que os agentes executam. Neste artigo, abordamos esses problemas invertendo o processo de construção de tarefas. Propomos o TASTE: Síntese de Tarefas a partir da Evolução de Sequências de Ferramentas, um método automático que gera tarefas desafiadoras com cobertura mais ampla de uso de ferramentas. O TASTE utiliza um modelo adaptativo de n-gramas contrastivos treinado em sinais de validade julgados por LLMs. Isso permite amostrar sequências válidas de ferramentas que cobrem uma vasta gama de combinações de ferramentas. O TASTE então seleciona sequências representativas do conjunto via clusterização, instancia-as em tarefas completas de benchmark e as refina por meio de evolução iterativa de dificuldade. Usando o TASTE, construímos o τ^c-Bench, uma extensão desafiadora para os três domínios do τ²-Bench. Avaliamos 11 pares de agente/LLM usuário e descobrimos que modelos que quase saturam o τ²-Bench sofrem quedas severas de desempenho em nossas tarefas (por exemplo, Gemini-3-Flash cai de 0,82–0,94 para 0,28–0,61). Além de aumentar a dificuldade, nossas tarefas geradas mais que dobram o número de combinações únicas de ferramentas que os agentes precisam executar. Nossos resultados sugerem que pontuações altas em benchmarks existentes frequentemente refletem saturação, e não uma capacidade robusta de resolução de tarefas. Ao automatizar a geração de benchmarks difíceis e de alta cobertura, o TASTE possibilita uma avaliação contínua e escalável de agentes futuros.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.