Вопрос TASTE: улучшение покрытия и сложности бенчмарков для агентов

Аннотация

По мере развития возможностей агентов существующие бенчмарки, такие как τ^2-Bench, становятся всё более насыщенными. Однако создание новых задач для бенчмарков остаётся сложным, дорогостоящим и трудоёмким процессом. Более того, стандартный подход, при котором сценарии сначала описываются на естественном языке, а затем отображаются в последовательности инструментов, охватывает лишь узкое подмножество паттернов использования инструментов, применяемых агентами. В данной статье мы решаем эти проблемы, обращая процесс создания задач. Мы предлагаем TASTE: синтез задач на основе эволюции последовательностей инструментов — автоматический метод, генерирующий сложные задачи с более широким охватом использования инструментов. TASTE использует адаптивную контрастивную n-граммную модель, обученную на сигналах валидности, оцениваемых LLM. Это позволяет выбирать валидные последовательности инструментов, охватывающие широкий спектр их комбинаций. Затем TASTE выбирает репрезентативные последовательности из пула с помощью кластеризации, инстанцирует их в полные задачи бенчмарка и дорабатывает через итеративную эволюцию сложности. Используя TASTE, мы создаём τ^c-Bench — сложное расширение трёх доменов τ^2-Bench. Мы оцениваем 11 пар агент/пользователь LLM и обнаруживаем, что модели, почти насыщающие τ^2-Bench, демонстрируют серьёзное падение производительности на наших задачах (например, Gemini-3-Flash снижается с 0,82-0,94 до 0,28-0,61). Помимо повышения сложности, наши сгенерированные задачи более чем вдвое увеличивают количество уникальных комбинаций инструментов, которые должны выполнять агенты. Наши результаты показывают, что высокие показатели на существующих бенчмарках часто отражают насыщение, а не надёжную способность решать задачи. Автоматизируя генерацию сложных бенчмарков с высоким охватом, TASTE обеспечивает непрерывную масштабируемую оценку будущих агентов.

English

As agent capabilities advance, existing benchmarks, such as τ^2-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive n-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct τ^c-Bench, a challenging extension of the three domains of τ^2-Bench. We evaluate 11 agent/user LLM pairs and find that models nearly saturating τ^2-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from 0.82!-!0.94 to 0.28!-!0.61). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.