CoVe: Treinamento de Agentes Interativos de Uso de Ferramentas via Verificação Orientada por Restrições

Resumo

O desenvolvimento de agentes interativos de uso de ferramentas com múltiplos turnos é um desafio, pois as necessidades dos usuários no mundo real são frequentemente complexas e ambíguas, mas os agentes devem executar ações determinísticas para satisfazê-las. Para abordar essa lacuna, apresentamos o CoVe (Constraint-Verification), uma estrutura de síntese de dados pós-treinamento projetada para treinar agentes interativos de uso de ferramentas, garantindo simultaneamente a complexidade e a correção dos dados. O CoVe começa por definir restrições explícitas de tarefa, que desempenham um duplo papel: orientam a geração de trajectórias complexas e atuam como verificadores determinísticos para avaliar a qualidade da trajectória. Isto permite a criação de trajectórias de treino de alta qualidade para *fine-tuning* supervisionado (SFT) e a derivação de sinais de recompensa precisos para aprendizagem por reforço (RL). A nossa avaliação no desafiante benchmark τ^2-bench demonstra a eficácia da estrutura. Notavelmente, o nosso modelo compacto CoVe-4B atinge taxas de sucesso de 43,0% e 59,4% nos domínios da Aviação e Retalho, respetivamente; o seu desempenho geral supera significativamente *baselines* fortes de escala similar e mantém-se competitivo com modelos até 17 vezes o seu tamanho. Estes resultados indicam que o CoVe fornece um caminho eficaz e eficiente para sintetizar dados de treino para agentes interativos de uso de ferramentas de última geração. Para apoiar investigação futura, disponibilizamos em *open-source* o nosso código, o modelo treinado e o conjunto completo de 12 mil trajectórias de alta qualidade usadas para o treino.

English

Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce CoVe (Constraint-Verification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging τ^2-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact CoVe-4B model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to 17times its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.