Почему многошаговое обучение с подкреплением использованию инструментов разрушается и как сигналы контроля это исправляют

Аннотация

Использование инструментов позволяет большим языковым моделям (LLM) выполнять сложные задачи, а современные методы агентного обучения с подкреплением (RL) демонстрируют потенциал для улучшения возможностей моделей. Однако одно лишь RL часто приводит к нестабильности или ограниченным улучшениям в задачах, связанных с использованием инструментов. В наших экспериментах некоторые модели демонстрируют катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои вызваны неожиданными скачками вероятности в определённых управляющих токенах, что нарушает структурированное выполнение, однако базовая способность использовать инструменты остаётся нетронутой, лишь скрытой из-за специфических форматов. Для решения этой проблемы мы систематически исследуем разнообразный набор сигналов контроля, включая обучение вне политики (off-policy), направляющие подсказки, обучение на ошибочных примерах и другие, применяемые как в синхронном, так и в перемежающемся режимах обучения. Мы обнаружили, что перемежающееся обучение с учителем (SFT) и RL значительно улучшает стабильность, но демонстрирует сниженную производительность при оценке на данных, выходящих за пределы распределения (OOD) по формату и содержанию. Мы также анализируем влияние скорости обучения и обобщение на различные конфигурации. Эти результаты подчёркивают важность понимания сбоев в RL и демонстрируют, как разнообразные сигналы контроля могут направлять исследовательское обучение, обеспечивая устойчивую тренировку LLM для сложных многошаговых задач с использованием инструментов. Наш код доступен по адресу https://github.com/hypasd-art/Tool-RL-Box.

English

Tool use enables large language models (LLMs) to perform complex tasks, and recent agentic reinforcement learning (RL) methods show promise for enhancing model capabilities. However, RL alone often leads to instability or limited gains in tool-use tasks. In our experiments, some models exhibit catastrophic collapse, where performance abruptly drops and tool-invocation structures fail. The analysis reveals that these failures stem from unexpected probability spikes in specific control tokens, disrupting structured execution, yet the underlying tool-use capability remains intact, merely obscured by specific formats. To address this, we systematically investigate a diverse set of supervisory signals, including off-policy supervision, hint-based guidance, erroneous example supervision, and others, applied under both synchronous and interleaved training schemes. We find that interleaving supervised fine-tuning (SFT) with RL substantially improves stability, but exhibits degraded performance under format and content out-of-distribution (OOD) evaluation. We also analyze the impact of learning rates and generalization across settings. These results highlight the importance of understanding RL failures and demonstrate how diverse supervisory signals can guide exploratory learning, enabling robust training of LLMs for complex, multi-step tool-use tasks. Our Code is available at https://github.com/hypasd-art/Tool-RL-Box.