LLM Augmentés par des LLM : Expansion des capacités par composition
LLM Augmented LLMs: Expanding Capabilities through Composition
January 4, 2024
Auteurs: Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar
cs.AI
Résumé
Les modèles fondateurs comportant des milliards de paramètres, entraînés sur de vastes corpus de données, ont démontré des compétences non triviales dans divers domaines. Cependant, en raison de leur structure monolithique, il est difficile et coûteux de les enrichir ou de leur conférer de nouvelles compétences. D'un autre côté, grâce à leurs capacités d'adaptation, plusieurs nouvelles instances de ces modèles sont entraînées pour de nouveaux domaines et tâches. Dans ce travail, nous étudions le problème de la composition efficace et pratique de modèles fondateurs existants avec des modèles plus spécifiques afin d'activer de nouvelles capacités. À cette fin, nous proposons CALM -- Composition pour Augmenter les Modèles de Langage -- qui introduit une attention croisée entre les modèles pour composer leurs représentations et activer de nouvelles capacités. Les caractéristiques saillantes de CALM sont : (i) Il permet de mettre à l'échelle les LLM pour de nouvelles tâches en "réutilisant" des LLM existants avec quelques paramètres et données supplémentaires, (ii) Les poids des modèles existants restent intacts, préservant ainsi leurs capacités actuelles, et (iii) Il s'applique à divers domaines et contextes. Nous montrons qu'en enrichissant PaLM2-S avec un modèle plus petit entraîné sur des langues à faibles ressources, on obtient une amélioration absolue allant jusqu'à 13 % pour des tâches comme la traduction vers l'anglais et le raisonnement arithmétique pour les langues à faibles ressources. De même, lorsque PaLM2-S est enrichi avec un modèle spécifique au code, nous observons une amélioration relative de 40 % par rapport au modèle de base pour les tâches de génération et d'explication de code -- à égalité avec les modèles entièrement affinés.
English
Foundational models with billions of parameters which have been trained on
large corpora of data have demonstrated non-trivial skills in a variety of
domains. However, due to their monolithic structure, it is challenging and
expensive to augment them or impart new skills. On the other hand, due to their
adaptation abilities, several new instances of these models are being trained
towards new domains and tasks. In this work, we study the problem of efficient
and practical composition of existing foundation models with more specific
models to enable newer capabilities. To this end, we propose CALM --
Composition to Augment Language Models -- which introduces cross-attention
between models to compose their representations and enable new capabilities.
Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using'
existing LLMs along with a few additional parameters and data, (ii) Existing
model weights are kept intact, and hence preserves existing capabilities, and
(iii) Applies to diverse domains and settings. We illustrate that augmenting
PaLM2-S with a smaller model trained on low-resource languages results in an
absolute improvement of up to 13\% on tasks like translation into English and
arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is
augmented with a code-specific model, we see a relative improvement of 40\%
over the base model for code generation and explanation tasks -- on-par with
fully fine-tuned counterparts.