LLM Augmentés par des LLM : Expansion des capacités par composition

papers.abstract

Les modèles fondateurs comportant des milliards de paramètres, entraînés sur de vastes corpus de données, ont démontré des compétences non triviales dans divers domaines. Cependant, en raison de leur structure monolithique, il est difficile et coûteux de les enrichir ou de leur conférer de nouvelles compétences. D'un autre côté, grâce à leurs capacités d'adaptation, plusieurs nouvelles instances de ces modèles sont entraînées pour de nouveaux domaines et tâches. Dans ce travail, nous étudions le problème de la composition efficace et pratique de modèles fondateurs existants avec des modèles plus spécifiques afin d'activer de nouvelles capacités. À cette fin, nous proposons CALM -- Composition pour Augmenter les Modèles de Langage -- qui introduit une attention croisée entre les modèles pour composer leurs représentations et activer de nouvelles capacités. Les caractéristiques saillantes de CALM sont : (i) Il permet de mettre à l'échelle les LLM pour de nouvelles tâches en "réutilisant" des LLM existants avec quelques paramètres et données supplémentaires, (ii) Les poids des modèles existants restent intacts, préservant ainsi leurs capacités actuelles, et (iii) Il s'applique à divers domaines et contextes. Nous montrons qu'en enrichissant PaLM2-S avec un modèle plus petit entraîné sur des langues à faibles ressources, on obtient une amélioration absolue allant jusqu'à 13 % pour des tâches comme la traduction vers l'anglais et le raisonnement arithmétique pour les langues à faibles ressources. De même, lorsque PaLM2-S est enrichi avec un modèle spécifique au code, nous observons une amélioration relative de 40 % par rapport au modèle de base pour les tâches de génération et d'explication de code -- à égalité avec les modèles entièrement affinés.

English

Foundational models with billions of parameters which have been trained on large corpora of data have demonstrated non-trivial skills in a variety of domains. However, due to their monolithic structure, it is challenging and expensive to augment them or impart new skills. On the other hand, due to their adaptation abilities, several new instances of these models are being trained towards new domains and tasks. In this work, we study the problem of efficient and practical composition of existing foundation models with more specific models to enable newer capabilities. To this end, we propose CALM -- Composition to Augment Language Models -- which introduces cross-attention between models to compose their representations and enable new capabilities. Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using' existing LLMs along with a few additional parameters and data, (ii) Existing model weights are kept intact, and hence preserves existing capabilities, and (iii) Applies to diverse domains and settings. We illustrate that augmenting PaLM2-S with a smaller model trained on low-resource languages results in an absolute improvement of up to 13\% on tasks like translation into English and arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is augmented with a code-specific model, we see a relative improvement of 40\% over the base model for code generation and explanation tasks -- on-par with fully fine-tuned counterparts.

LLM Augmentés par des LLM : Expansion des capacités par composition

LLM Augmented LLMs: Expanding Capabilities through Composition

papers.abstract

Support