Una cuestión de TASTE: Mejorando la cobertura y dificultad de los benchmarks de agentes

Resumen

A medida que las capacidades de los agentes avanzan, los puntos de referencia existentes, como τ^2-Bench, se están saturando cada vez más. Sin embargo, la construcción de nuevas tareas de referencia sigue siendo compleja, costosa y laboriosa. Además, el enfoque estándar, en el que los escenarios se escriben primero en lenguaje natural y luego se asignan a secuencias de herramientas, captura solo un subconjunto limitado de los patrones de uso de herramientas que ejercen los agentes. En este artículo, abordamos estos problemas invirtiendo el proceso de construcción de tareas. Proponemos TASTE: Síntesis de Tareas a partir de la Evolución de Secuencias de Herramientas (Task Synthesis from Tool Sequence Evolution), un método automático que genera tareas desafiantes con una cobertura más amplia del uso de herramientas. TASTE utiliza un modelo adaptativo de n-gramas contrastivos entrenado con señales de validez evaluadas por un LLM. Esto permite muestrear secuencias de herramientas válidas que cubren una amplia gama de combinaciones de herramientas. Luego, TASTE selecciona secuencias representativas del conjunto mediante agrupamiento, las instancia en tareas de referencia completas y las refina mediante una evolución iterativa de la dificultad. Usando TASTE, construimos τ^c-Bench, una extensión desafiante de los tres dominios de τ^2-Bench. Evaluamos 11 pares agente/LLM de usuario y encontramos que los modelos que casi saturan τ^2-Bench sufren caídas severas en el rendimiento en nuestras tareas (por ejemplo, Gemini-3-Flash cae de 0.82-0.94 a 0.28-0.61). Más allá de aumentar la dificultad, nuestras tareas generadas más que duplican el número de combinaciones únicas de herramientas que los agentes deben ejecutar. Nuestros resultados sugieren que las puntuaciones altas en puntos de referencia existentes a menudo reflejan saturación en lugar de una capacidad robusta para resolver tareas. Al automatizar la generación de puntos de referencia difíciles y de alta cobertura, TASTE permite una evaluación continua y escalable de los agentes futuros.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.