Контекстное обучение с подкреплением для использования инструментов в больших языковых моделях

Аннотация

Хотя большие языковые модели (LLM) демонстрируют высокие способности к рассуждению, их производительность на сложных задачах часто ограничена пределами их внутренних знаний. Перспективным подходом для преодоления этого ограничения является дополнение этих моделей внешними инструментами — такими как интерпретаторы Python для математических вычислений или поисковые системы для получения фактической информации. Однако эффективное использование моделями этих инструментов остается серьезной проблемой. Существующие методы обычно основаны на "холодных" конвейерах, которые начинаются с контролируемого тонкого настройки (SFT), за которым следует обучение с подкреплением (RL). Эти подходы часто требуют значительных объемов размеченных данных для SFT, создание которых дорого. В данной работе мы предлагаем In-Context Reinforcement Learning (ICRL) — фреймворк, использующий только RL, который устраняет необходимость в SFT за счет использования немногих примеров (few-shot) на этапе выполнения (rollout) в RL. В частности, ICRL вводит контекстные примеры в промты этапа выполнения, чтобы научить модель тому, как вызывать внешние инструменты. Более того, по мере обучения количество контекстных примеров постепенно сокращается, в конечном итоге достигая zero-shot режима, в котором модель учится самостоятельно вызывать инструменты. Мы провели обширные эксперименты на ряде бенчмарков, связанных с рассуждениями и использованием инструментов. Результаты показывают, что ICRL достигает наилучшей производительности, демонстрируя свою эффективность в качестве масштабируемой и ресурсоэффективной альтернативы традиционным конвейерам на основе SFT.

English

While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.

Контекстное обучение с подкреплением для использования инструментов в больших языковых моделях

In-Context Reinforcement Learning for Tool Use in Large Language Models

Аннотация

Support