Самообучающиеся агенты языковых моделей
Self-Challenging Language Model Agents
June 2, 2025
Авторы: Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar
cs.AI
Аннотация
Крупные языковые модели быстро становятся основой для интеллектуальных агентов, способных использовать инструменты. Однако обучение таких агентов является сложной задачей, поскольку требует создания и аннотирования человеком разнообразного набора задач, инструментов и критериев оценки. В данной работе мы предлагаем фреймворк Self-Challenging для обучения агента на высококачественных задачах, которые генерируются им самим. Агент сначала выступает в роли "испытателя" и создает задачу после взаимодействия с предоставленными инструментами. Задачи принимают форму нового общего класса проблем, называемого Code-as-Task, которые определяются инструкцией, функцией проверки, а также примерами решений и неудач, служащими тестами, что позволяет отфильтровывать только высококачественные задачи. Затем агент берет на себя роль "исполнителя" и обучается на этих задачах с использованием обучения с подкреплением, где оценочная обратная связь служит наградой. Оценка на двух существующих бенчмарках для многошаговых агентов, использующих инструменты, — M3ToolEval и TauBench — показывает, что фреймворк Self-Challenging обеспечивает более чем двукратное улучшение в модели Llama-3.1-8B-Instruct, несмотря на использование только самостоятельно сгенерированных данных для обучения.
English
Large language models are quickly becoming the foundation for intelligent
agents that are capable of using tools. However, training such agents is
challenging because it requires human creation and annotation of a diverse set
of tasks, tools, and evaluation criteria. In this paper, we propose the
Self-Challenging framework for training an agent on high-quality tasks that are
generated by itself. The agent first plays the role of challenger and generates
a task after interacting with the given tools. The tasks take the form of a
novel general class of problems termed Code-as-Task, which are defined by an
instruction, a verification function and solution and failure cases which serve
as tests, allowing to filter only for high-quality tasks. The agent then takes
an executor role and trains on those tasks with reinforcement learning using
the evaluation feedback as a reward. Evaluation on two existing multi-turn
tool-use agent benchmarks, M3ToolEval and TauBench, shows the Self-Challenging
framework achieves over a two-fold improvement in Llama-3.1-8B-Instruct,
despite using only self-generated training data.