ChatPaper.aiChatPaper

Доказанные преимущества обучения в процессе использования для крупных языковых моделей

Provable Benefits of In-Tool Learning for Large Language Models

August 28, 2025
Авторы: Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes
cs.AI

Аннотация

Языковые модели, дополненные инструментами, такими как поиск, память или внешние API, трансформируют область ИИ, однако их теоретические преимущества остаются недостаточно изученными. В данной работе мы исследуем этот вопрос, демонстрируя преимущества обучения с использованием инструментов (внешний поиск) перед обучением с запоминанием (внутренние веса) для воспроизведения фактов. Мы показываем, что количество фактов, которые модель может запомнить исключительно в своих весах, принципиально ограничено количеством параметров. В то же время мы доказываем, что использование инструментов позволяет достичь неограниченного воспроизведения фактов благодаря простой и эффективной схеме. Эти результаты подтверждаются в контролируемых экспериментах, где модели, использующие инструменты, стабильно превосходят модели, полагающиеся на запоминание. Мы также показываем, что для предобученных крупных языковых моделей обучение использованию инструментов и общим правилам более эффективно, чем дообучение фактов в память. Наша работа закладывает как теоретическую, так и эмпирическую основу, объясняя, почему рабочие процессы с использованием инструментов не только практичны, но и доказательно более масштабируемы.
English
Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbounded factual recall via a simple and efficient circuit construction. These results are validated in controlled experiments, where tool-using models consistently outperform memorizing ones. We further show that for pretrained large language models, teaching tool-use and general rules is more effective than finetuning facts into memory. Our work provides both a theoretical and empirical foundation, establishing why tool-augmented workflows are not just practical, but provably more scalable.
PDF52August 29, 2025