Самообучающиеся агенты языковых моделей

Аннотация

Крупные языковые модели быстро становятся основой для интеллектуальных агентов, способных использовать инструменты. Однако обучение таких агентов является сложной задачей, поскольку требует создания и аннотирования человеком разнообразного набора задач, инструментов и критериев оценки. В данной работе мы предлагаем фреймворк Self-Challenging для обучения агента на высококачественных задачах, которые генерируются им самим. Агент сначала выступает в роли "испытателя" и создает задачу после взаимодействия с предоставленными инструментами. Задачи принимают форму нового общего класса проблем, называемого Code-as-Task, которые определяются инструкцией, функцией проверки, а также примерами решений и неудач, служащими тестами, что позволяет отфильтровывать только высококачественные задачи. Затем агент берет на себя роль "исполнителя" и обучается на этих задачах с использованием обучения с подкреплением, где оценочная обратная связь служит наградой. Оценка на двух существующих бенчмарках для многошаговых агентов, использующих инструменты, — M3ToolEval и TauBench — показывает, что фреймворк Self-Challenging обеспечивает более чем двукратное улучшение в модели Llama-3.1-8B-Instruct, несмотря на использование только самостоятельно сгенерированных данных для обучения.

English

Large language models are quickly becoming the foundation for intelligent agents that are capable of using tools. However, training such agents is challenging because it requires human creation and annotation of a diverse set of tasks, tools, and evaluation criteria. In this paper, we propose the Self-Challenging framework for training an agent on high-quality tasks that are generated by itself. The agent first plays the role of challenger and generates a task after interacting with the given tools. The tasks take the form of a novel general class of problems termed Code-as-Task, which are defined by an instruction, a verification function and solution and failure cases which serve as tests, allowing to filter only for high-quality tasks. The agent then takes an executor role and trains on those tasks with reinforcement learning using the evaluation feedback as a reward. Evaluation on two existing multi-turn tool-use agent benchmarks, M3ToolEval and TauBench, shows the Self-Challenging framework achieves over a two-fold improvement in Llama-3.1-8B-Instruct, despite using only self-generated training data.

Самообучающиеся агенты языковых моделей

Self-Challenging Language Model Agents

Аннотация

Support