CoVe: Addestramento di Agenti Interattivi per l'Utilizzo di Strumenti tramite Verifica Guidata da Vincoli

Abstract

Lo sviluppo di agenti interattivi multi-turn per l'uso di strumenti è impegnativo poiché le esigenze degli utenti nel mondo reale sono spesso complesse e ambigue, eppure gli agenti devono eseguire azioni deterministiche per soddisfarle. Per colmare questa lacuna, introduciamo CoVe (Constraint-Verification), un framework di sintesi dei dati post-addestramento progettato per addestrare agenti interattivi per l'uso di strumenti, garantendo al contempo sia la complessità che la correttezza dei dati. CoVe inizia definendo vincoli di task espliciti, che svolgono un duplice ruolo: guidano la generazione di traiettorie complesse e fungono da verificatori deterministici per valutare la qualità della traiettoria. Ciò consente la creazione di traiettorie di addestramento di alta qualità per il supervised fine-tuning (SFT) e la derivazione di segnali di reward accurati per il reinforcement learning (RL). La nostra valutazione sul complesso benchmark τ²-bench dimostra l'efficacia del framework. In particolare, il nostro modello compatto CoVe-4B raggiunge tassi di successo del 43,0% e del 59,4% rispettivamente nei domini Airline e Retail; le sue prestazioni complessive superano significativamente quelle di baseline robuste di scala simile e rimangono competitive con modelli fino a 17 volte più grandi. Questi risultati indicano che CoVe fornisce un percorso efficace ed efficiente per sintetizzare dati di addestramento per agenti interattivi all'avanguardia per l'uso di strumenti. Per supportare la ricerca futura, rendiamo open-source il nostro codice, il modello addestrato e l'intero set di 12.000 traiettorie di alta qualità utilizzate per l'addestramento.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

CoVe: Addestramento di Agenti Interattivi per l'Utilizzo di Strumenti tramite Verifica Guidata da Vincoli

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Abstract

Support