CoVe : Formation d'Agents Interactifs Utilisant des Outils par Vérification Guidée par Contraintes

Résumé

Le développement d'agents interactifs multi-tours utilisant des outils est un défi complexe, car les besoins réels des utilisateurs sont souvent ambigus, tandis que les agents doivent exécuter des actions déterministes pour les satisfaire. Pour combler cet écart, nous présentons CoVe (Constraint-Verification), un cadre de synthèse de données post-entraînement conçu pour former des agents interactifs tout en garantissant la complexité et l'exactitude des données. CoVe commence par définir des contraintes explicites de tâche, qui jouent un double rôle : elles guident la génération de trajectoires complexes et servent de vérificateurs déterministes pour évaluer la qualité des trajectoires. Cela permet de créer des trajectoires d'entraînement de haute qualité pour le réglage fin supervisé (SFT) et d'obtenir des signaux de récompense précis pour l'apprentissage par renforcement (RL). Notre évaluation sur le benchmark exigeant τ²-bench démontre l'efficacité du cadre. Notamment, notre modèle compact CoVe-4B atteint des taux de réussite de 43,0 % et 59,4 % respectivement dans les domaines du Transport aérien et de la Vente au détail ; ses performances globales surpassent significativement celles de modèles de référence de taille similaire et restent compétitives avec des modèles jusqu'à 17 fois plus grands. Ces résultats indiquent que CoVe offre une voie efficace et efficiente pour synthétiser des données d'entraînement pour des agents interactifs utilisant des outils à la pointe de la technologie. Pour soutenir les recherches futures, nous ouvrons notre code, notre modèle entraîné et l'ensemble complet des 12 000 trajectoires de haute qualité utilisées pour l'entraînement.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

CoVe : Formation d'Agents Interactifs Utilisant des Outils par Vérification Guidée par Contraintes

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Résumé

Support