Nachweisbare Vorteile des In-Tool-Lernens für große Sprachmodelle
Provable Benefits of In-Tool Learning for Large Language Models
August 28, 2025
papers.authors: Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes
cs.AI
papers.abstract
Werkzeuggestützte Sprachmodelle, die mit Retrieval, Speicher oder externen APIs ausgestattet sind, gestalten die KI neu, doch ihre theoretischen Vorteile bleiben weitgehend unerforscht. In diesem Artikel gehen wir dieser Frage nach, indem wir die Vorteile des Lernens mit Werkzeugen (externes Retrieval) gegenüber dem Lernen in den Gewichten (Speicherung) für die Faktenwiedergabe aufzeigen. Wir zeigen, dass die Anzahl der Fakten, die ein Modell allein in seinen Gewichten speichern kann, grundsätzlich durch die Anzahl seiner Parameter begrenzt ist. Im Gegensatz dazu beweisen wir, dass die Nutzung von Werkzeugen eine unbegrenzte Faktenwiedergabe durch eine einfache und effiziente Schaltungskonstruktion ermöglicht. Diese Ergebnisse werden in kontrollierten Experimenten validiert, bei denen werkzeugnutzende Modelle durchweg besser abschneiden als speichernde Modelle. Wir zeigen weiterhin, dass es für vortrainierte große Sprachmodelle effektiver ist, die Nutzung von Werkzeugen und allgemeine Regeln zu vermitteln, als Fakten durch Feinabstimmung ins Gedächtnis zu übertragen. Unsere Arbeit liefert sowohl eine theoretische als auch eine empirische Grundlage und begründet, warum werkzeuggestützte Arbeitsabläufe nicht nur praktisch, sondern nachweislich skalierbarer sind.
English
Tool-augmented language models, equipped with retrieval, memory, or external
APIs, are reshaping AI, yet their theoretical advantages remain underexplored.
In this paper, we address this question by demonstrating the benefits of
in-tool learning (external retrieval) over in-weight learning (memorization)
for factual recall. We show that the number of facts a model can memorize
solely in its weights is fundamentally limited by its parameter count. In
contrast, we prove that tool-use enables unbounded factual recall via a simple
and efficient circuit construction. These results are validated in controlled
experiments, where tool-using models consistently outperform memorizing ones.
We further show that for pretrained large language models, teaching tool-use
and general rules is more effective than finetuning facts into memory. Our work
provides both a theoretical and empirical foundation, establishing why
tool-augmented workflows are not just practical, but provably more scalable.