Eine Frage von TASTE: Verbesserung der Abdeckung und Schwierigkeit von Agenten-Benchmarks

Zusammenfassung

Mit zunehmenden Fähigkeiten von Agenten werden bestehende Benchmarks wie τ^2-Bench zunehmend gesättigt. Dennoch bleibt die Konstruktion neuer Benchmark-Aufgaben komplex, kostspielig und arbeitsintensiv. Darüber hinaus erfasst der Standardansatz, bei dem Szenarien zunächst in natürlicher Sprache verfasst und dann auf Werkzeugsequenzen abgebildet werden, nur einen geringen Teil der von Agenten genutzten Werkzeugmuster. In diesem Beitrag adressieren wir diese Probleme, indem wir den Aufgabenkonstruktionsprozess umkehren. Wir schlagen TASTE: Task Synthesis from Tool Sequence Evolution vor, eine automatische Methode zur Erzeugung anspruchsvoller Aufgaben mit breiterem Werkzeugabdeckungsgrad. TASTE nutzt ein adaptives kontrastives n-Gramm-Modell, das auf von LLM beurteilten Gültigkeitssignalen trainiert wird. Dies ermöglicht das Sampling gültiger Werkzeugsequenzen, die eine Vielzahl von Werkzeugkombinationen abdecken. TASTE wählt anschließend repräsentative Sequenzen aus dem Pool mittels Clustering aus, instanziiert sie zu vollständigen Benchmark-Aufgaben und verfeinert sie durch iterative Schwierigkeitsentwicklung. Mit TASTE konstruieren wir τ^c-Bench, eine anspruchsvolle Erweiterung der drei Domänen von τ^2-Bench. Wir evaluieren 11 Agenten/Benutzer-LLM-Paare und stellen fest, dass Modelle, die τ^2-Bench nahezu sättigen, auf unseren Aufgaben erhebliche Leistungseinbußen erleiden (z. B. fällt Gemini-3-Flash von 0,82–0,94 auf 0,28–0,61). Über die erhöhte Schwierigkeit hinaus verdoppelt sich bei unseren generierten Aufgaben die Anzahl der eindeutigen Werkzeugkombinationen, die Agenten ausführen müssen. Unsere Ergebnisse deuten darauf hin, dass hohe Punktzahlen auf bestehenden Benchmarks oft eher auf Sättigung als auf robuste Aufgabenlösungsfähigkeit zurückzuführen sind. Durch die Automatisierung der Erzeugung schwieriger, abdeckungsreicher Benchmarks ermöglicht TASTE eine kontinuierliche, skalierbare Bewertung zukünftiger Agenten.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.