Vantaggi Dimostrabili dell'Apprendimento Integrato negli Strumenti per i Modelli Linguistici di Grande Dimensione

Abstract

I modelli linguistici potenziati da strumenti, dotati di capacità di recupero, memoria o API esterne, stanno ridefinendo l'IA, sebbene i loro vantaggi teorici rimangano poco esplorati. In questo articolo, affrontiamo questa questione dimostrando i benefici dell'apprendimento tramite strumenti (recupero esterno) rispetto all'apprendimento tramite pesi (memorizzazione) per il richiamo di fatti. Mostriamo che il numero di fatti che un modello può memorizzare esclusivamente nei suoi pesi è fondamentalmente limitato dal numero di parametri. Al contrario, dimostriamo che l'uso di strumenti consente un richiamo illimitato di fatti attraverso una costruzione di circuiti semplice ed efficiente. Questi risultati sono validati in esperimenti controllati, in cui i modelli che utilizzano strumenti superano costantemente quelli che si basano sulla memorizzazione. Inoltre, mostriamo che per i modelli linguistici pre-addestrati di grandi dimensioni, insegnare l'uso di strumenti e regole generali è più efficace rispetto al fine-tuning dei fatti nella memoria. Il nostro lavoro fornisce sia una base teorica che empirica, stabilendo perché i flussi di lavoro potenziati da strumenti non sono solo pratici, ma anche dimostrabilmente più scalabili.

English

Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbounded factual recall via a simple and efficient circuit construction. These results are validated in controlled experiments, where tool-using models consistently outperform memorizing ones. We further show that for pretrained large language models, teaching tool-use and general rules is more effective than finetuning facts into memory. Our work provides both a theoretical and empirical foundation, establishing why tool-augmented workflows are not just practical, but provably more scalable.

Vantaggi Dimostrabili dell'Apprendimento Integrato negli Strumenti per i Modelli Linguistici di Grande Dimensione

Provable Benefits of In-Tool Learning for Large Language Models

Abstract

Support