ChatPaper.aiChatPaper

LLM-erweiterte LLMs: Erweiterung der Fähigkeiten durch Komposition

LLM Augmented LLMs: Expanding Capabilities through Composition

January 4, 2024
Autoren: Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar
cs.AI

Zusammenfassung

Grundlegende Modelle mit Milliarden von Parametern, die auf großen Datenkorpora trainiert wurden, haben nicht-triviale Fähigkeiten in einer Vielzahl von Domänen gezeigt. Aufgrund ihrer monolithischen Struktur ist es jedoch herausfordernd und kostspielig, sie zu erweitern oder neue Fähigkeiten zu vermitteln. Andererseits werden aufgrund ihrer Anpassungsfähigkeiten mehrere neue Instanzen dieser Modelle für neue Domänen und Aufgaben trainiert. In dieser Arbeit untersuchen wir das Problem der effizienten und praktischen Komposition bestehender Grundlagenmodelle mit spezifischeren Modellen, um neue Fähigkeiten zu ermöglichen. Zu diesem Zweck schlagen wir CALM vor – Composition to Augment Language Models –, das Cross-Attention zwischen Modellen einführt, um deren Repräsentationen zu kombinieren und neue Fähigkeiten zu ermöglichen. Wesentliche Merkmale von CALM sind: (i) Es skaliert LLMs für neue Aufgaben durch die „Wiederverwendung“ bestehender LLMs zusammen mit einigen zusätzlichen Parametern und Daten, (ii) Die bestehenden Modellgewichte bleiben unverändert, wodurch bestehende Fähigkeiten erhalten bleiben, und (iii) Es ist auf verschiedene Domänen und Settings anwendbar. Wir zeigen, dass die Erweiterung von PaLM2-S mit einem kleineren Modell, das auf ressourcenarmen Sprachen trainiert wurde, eine absolute Verbesserung von bis zu 13 % bei Aufgaben wie der Übersetzung ins Englische und arithmetischem Denken für ressourcenarme Sprachen bewirkt. Ebenso sehen wir, wenn PaLM2-S mit einem code-spezifischen Modell erweitert wird, eine relative Verbesserung von 40 % gegenüber dem Basismodell für Code-Generierung und Erklärungstasks – auf Augenhöhe mit vollständig feinabgestimmten Gegenstücken.
English
Foundational models with billions of parameters which have been trained on large corpora of data have demonstrated non-trivial skills in a variety of domains. However, due to their monolithic structure, it is challenging and expensive to augment them or impart new skills. On the other hand, due to their adaptation abilities, several new instances of these models are being trained towards new domains and tasks. In this work, we study the problem of efficient and practical composition of existing foundation models with more specific models to enable newer capabilities. To this end, we propose CALM -- Composition to Augment Language Models -- which introduces cross-attention between models to compose their representations and enable new capabilities. Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using' existing LLMs along with a few additional parameters and data, (ii) Existing model weights are kept intact, and hence preserves existing capabilities, and (iii) Applies to diverse domains and settings. We illustrate that augmenting PaLM2-S with a smaller model trained on low-resource languages results in an absolute improvement of up to 13\% on tasks like translation into English and arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is augmented with a code-specific model, we see a relative improvement of 40\% over the base model for code generation and explanation tasks -- on-par with fully fine-tuned counterparts.
PDF391December 15, 2024