Une question de TASTE : améliorer la couverture et la difficulté des benchmarks d'agents

Résumé

À mesure que les capacités des agents progressent, les points de repère existants, tels que τ²-Bench, deviennent de plus en plus saturés. Pourtant, la construction de nouvelles tâches de référence reste complexe, coûteuse et exigeante en main-d'œuvre. De plus, l'approche standard, qui consiste d'abord à rédiger des scénarios en langage naturel puis à les traduire en séquences d'outils, ne capture qu'un sous-ensemble restreint des schémas d'utilisation d'outils mis en œuvre par les agents. Dans cet article, nous abordons ces problèmes en inversant le processus de construction des tâches. Nous proposons TASTE : Synthèse de Tâches par Évolution de Séquences d'Outils (Task Synthesis from Tool Sequence Evolution), une méthode automatique qui génère des tâches difficiles avec une couverture d'utilisation d'outils plus large. TASTE utilise un modèle adaptatif de n-grammes contrastifs entraîné sur des signaux de validité évalués par LLM. Cela permet d'échantillonner des séquences d'outils valides couvrant un vaste éventail de combinaisons d'outils. TASTE sélectionne ensuite des séquences représentatives à partir du pool via un clustering, les instancie en tâches de référence complètes, et les affine par une évolution itérative de la difficulté. En utilisant TASTE, nous construisons τ^c-Bench, une extension exigeante des trois domaines de τ²-Bench. Nous évaluons 11 paires agent/LLM utilisateur et constatons que les modèles qui saturent presque τ²-Bench subissent des chutes de performance sévères sur nos tâches (par exemple, Gemini-3-Flash passe de 0,82 – 0,94 à 0,28 – 0,61). Au-delà de l'augmentation de la difficulté, nos tâches générées doublent le nombre de combinaisons uniques d'outils que les agents doivent exécuter. Nos résultats suggèrent que les scores élevés sur les points de repère existants reflètent souvent une saturation plutôt qu'une capacité robuste à résoudre des tâches. En automatisant la génération de points de repère difficiles et à large couverture, TASTE permet une évaluation continue et scalable des futurs agents.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.