CoVe: Training interaktiver Werkzeugnutzungsagenten durch restriktionsgesteuerte Verifikation

Zusammenfassung

Die Entwicklung mehrschrittiger interaktiver Werkzeugnutzungsagenten ist anspruchsvoll, da reale Nutzerbedürfnisse oft komplex und mehrdeutig sind, die Agenten jedoch deterministische Aktionen ausführen müssen, um diese zu erfüllen. Um diese Lücke zu schließen, stellen wir CoVe (Constraint-Verification) vor, ein Framework zur Datensynthese nach dem Training, das für das Training interaktiver Werkzeugnutzungsagenten entwickelt wurde und dabei sowohl Datenkomplexität als auch Korrektheit gewährleistet. CoVe beginnt mit der Definition expliziter Aufgabenbeschränkungen, die eine doppelte Rolle erfüllen: Sie leiten die Generierung komplexer Trajektorien und dienen als deterministische Verifizierer zur Bewertung der Trajektorienqualität. Dies ermöglicht die Erstellung hochwertiger Trainings-Trajektorien für supervised Fine-Tuning (SFT) und die Ableitung genauer Belohnungssignale für Reinforcement Learning (RL). Unsere Auswertung auf dem anspruchsvollen τ^2-Bench-Benchmark demonstriert die Wirksamkeit des Frameworks. Besonders bemerkenswert ist, dass unser kompaktes CoVe-4B-Modell Erfolgsquoten von 43,0 % bzw. 59,4 % in den Domänen Airline und Einzelhandel erreicht; seine Gesamtleistung übertrifft starke Baseline-Modelle ähnlicher Größe signifikant und bleibt wettbewerbsfähig mit Modellen, die bis zu 17-mal größer sind. Diese Ergebnisse zeigen, dass CoVe einen effektiven und effizienten Weg zur Synthese von Trainingsdaten für state-of-the-art interaktive Werkzeugnutzungsagenten bietet. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren Code, das trainierte Modell und den vollständigen Satz von 12.000 hochwertigen Trainings-Trajektorien als Open Source.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

CoVe: Training interaktiver Werkzeugnutzungsagenten durch restriktionsgesteuerte Verifikation

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Zusammenfassung

Support