Avantages démontrables de l'apprentissage intégré aux outils pour les grands modèles de langage

papers.abstract

Les modèles de langage augmentés par des outils, équipés de capacités de recherche, de mémoire ou d'API externes, sont en train de transformer l'IA, bien que leurs avantages théoriques restent sous-explorés. Dans cet article, nous abordons cette question en démontrant les bénéfices de l'apprentissage par outils (recherche externe) par rapport à l'apprentissage par poids (mémorisation) pour le rappel de faits. Nous montrons que le nombre de faits qu'un modèle peut mémoriser uniquement dans ses poids est fondamentalement limité par son nombre de paramètres. En revanche, nous prouvons que l'utilisation d'outils permet un rappel de faits illimité grâce à une construction de circuit simple et efficace. Ces résultats sont validés dans des expériences contrôlées, où les modèles utilisant des outils surpassent systématiquement ceux qui reposent sur la mémorisation. Nous montrons en outre que pour les grands modèles de langage pré-entraînés, enseigner l'utilisation d'outils et des règles générales est plus efficace que le fine-tuning de faits en mémoire. Notre travail fournit à la fois une base théorique et empirique, établissant pourquoi les workflows augmentés par des outils ne sont pas seulement pratiques, mais aussi prouvés comme étant plus évolutifs.

English

Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbounded factual recall via a simple and efficient circuit construction. These results are validated in controlled experiments, where tool-using models consistently outperform memorizing ones. We further show that for pretrained large language models, teaching tool-use and general rules is more effective than finetuning facts into memory. Our work provides both a theoretical and empirical foundation, establishing why tool-augmented workflows are not just practical, but provably more scalable.

Avantages démontrables de l'apprentissage intégré aux outils pour les grands modèles de langage

Provable Benefits of In-Tool Learning for Large Language Models

papers.abstract

Support