CoVe: Entrenamiento de Agentes Interactivos de Uso de Herramientas mediante Verificación Guiada por Restricciones

Resumen

El desarrollo de agentes interactivos multisesión que utilizan herramientas es un desafío, ya que las necesidades de los usuarios en el mundo real suelen ser complejas y ambiguas, pero los agentes deben ejecutar acciones deterministas para satisfacerlas. Para abordar esta brecha, presentamos CoVe (Constraint-Verification), un marco de síntesis de datos posterior al entrenamiento diseñado para entrenar agentes interactivos que utilizan herramientas, garantizando tanto la complejidad como la corrección de los datos. CoVe comienza definiendo restricciones explícitas de la tarea, que cumplen una doble función: guían la generación de trayectorias complejas y actúan como verificadores deterministas para evaluar la calidad de las trayectorias. Esto permite la creación de trayectorias de entrenamiento de alta calidad para el ajuste fino supervisado (SFT) y la obtención de señales de recompensa precisas para el aprendizaje por refuerzo (RL). Nuestra evaluación en el exigente benchmark τ²-bench demuestra la efectividad del marco. Notablemente, nuestro modelo compacto CoVe-4B logra tasas de éxito del 43.0% y 59.4% en los dominios de Aerolíneas y Minoristas, respectivamente; su rendimiento general supera significativamente a líneas base sólidas de escala similar y se mantiene competitivo con modelos hasta 17 veces más grandes. Estos resultados indican que CoVe proporciona una vía eficaz y eficiente para sintetizar datos de entrenamiento para agentes interactivos de vanguardia que utilizan herramientas. Para apoyar la investigación futura, hemos hecho de código abierto nuestro código, el modelo entrenado y el conjunto completo de 12,000 trayectorias de alta calidad utilizadas para el entrenamiento.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.

CoVe: Entrenamiento de Agentes Interactivos de Uso de Herramientas mediante Verificación Guiada por Restricciones

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Resumen

Support