CoVe: Обучение интерактивных агентов, использующих инструменты, с помощью верификации на основе ограничений

Аннотация

Разработка многошаговых интерактивных агентов с использованием инструментов сопряжена со сложностями, поскольку реальные потребности пользователей часто являются комплексными и неоднозначными, однако агенты должны выполнять детерминированные действия для их удовлетворения. Для преодоления этого разрыва мы представляем CoVe (Constraint-Verification — ограничение-верификация), фреймворк для синтеза данных после обучения, предназначенный для тренировки интерактивных агентов с обеспечением как сложности, так и корректности данных. CoVe начинается с определения явных ограничений задачи, которые выполняют двойную роль: они направляют генерацию сложных траекторий и выступают в качестве детерминированных верификаторов для оценки качества траекторий. Это позволяет создавать высококачественные тренировочные траектории для контролируемого тонкого настройки (SFT) и получать точные сигналы вознаграждения для обучения с подкреплением (RL). Наша оценка на сложном бенчмарке τ²-bench демонстрирует эффективность фреймворка. Примечательно, что наша компактная модель CoVe-4B достигает показателей успешности в 43,0% и 59,4% в доменах Авиаперевозок и Розничной торговли соответственно; её общая производительность значительно превосходит сильные базовые модели схожего масштаба и остается конкурентоспособной с моделями до 17 раз большего размера. Эти результаты указывают на то, что CoVe предоставляет эффективный и результативный путь для синтеза тренировочных данных для передовых интерактивных агентов. Для поддержки будущих исследований мы открываем исходный код, обученную модель и полный набор из 12 тысяч высококачественных траекторий, использованных для обучения.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

CoVe: Обучение интерактивных агентов, использующих инструменты, с помощью верификации на основе ограничений

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Аннотация

Support