ChatPaper.aiChatPaper

Agenti di Modelli Linguistici ad Auto-Sfida

Self-Challenging Language Model Agents

June 2, 2025
Autori: Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar
cs.AI

Abstract

I grandi modelli linguistici stanno rapidamente diventando la base per agenti intelligenti in grado di utilizzare strumenti. Tuttavia, addestrare tali agenti è impegnativo perché richiede la creazione e l'annotazione umana di un insieme diversificato di compiti, strumenti e criteri di valutazione. In questo articolo, proponiamo il framework Self-Challenging per addestrare un agente su compiti di alta qualità generati da sé stesso. L'agente assume prima il ruolo di sfidante e genera un compito dopo aver interagito con gli strumenti forniti. I compiti assumono la forma di una nuova classe generale di problemi denominata Code-as-Task, definiti da un'istruzione, una funzione di verifica e casi di soluzione e fallimento che fungono da test, permettendo di filtrare solo i compiti di alta qualità. L'agente assume poi il ruolo di esecutore e si addestra su tali compiti con apprendimento per rinforzo, utilizzando il feedback di valutazione come ricompensa. La valutazione su due benchmark esistenti per agenti multi-turn che utilizzano strumenti, M3ToolEval e TauBench, mostra che il framework Self-Challenging ottiene un miglioramento di oltre il doppio in Llama-3.1-8B-Instruct, nonostante utilizzi solo dati di addestramento auto-generati.
English
Large language models are quickly becoming the foundation for intelligent agents that are capable of using tools. However, training such agents is challenging because it requires human creation and annotation of a diverse set of tasks, tools, and evaluation criteria. In this paper, we propose the Self-Challenging framework for training an agent on high-quality tasks that are generated by itself. The agent first plays the role of challenger and generates a task after interacting with the given tools. The tasks take the form of a novel general class of problems termed Code-as-Task, which are defined by an instruction, a verification function and solution and failure cases which serve as tests, allowing to filter only for high-quality tasks. The agent then takes an executor role and trains on those tasks with reinforcement learning using the evaluation feedback as a reward. Evaluation on two existing multi-turn tool-use agent benchmarks, M3ToolEval and TauBench, shows the Self-Challenging framework achieves over a two-fold improvement in Llama-3.1-8B-Instruct, despite using only self-generated training data.
PDF102June 4, 2025