Cappy: Übertreffen und Verbessern großer Multi-Task-LMs mit einem kleinen Bewertungsmodul

papers.abstract

Große Sprachmodelle (LLMs) wie T0, FLAN und OPT-IML zeichnen sich durch ihre Fähigkeit aus, Multitasking unter einem einheitlichen Paradigma der Befolgung von Anweisungen zu bewältigen, wobei sie auch bemerkenswerte Generalisierungsfähigkeiten bei unbekannten Aufgaben zeigen. Trotz ihrer beeindruckenden Leistung erfordern diese LLMs, deren Größe von mehreren Milliarden bis zu Hunderten von Milliarden Parametern reicht, erhebliche Rechenressourcen, was ihr Training und ihre Inferenz teuer und ineffizient macht. Darüber hinaus ist die Anpassung dieser Modelle an nachgelagerte Anwendungen, insbesondere komplexe Aufgaben, oft nicht machbar, da die Hardwareanforderungen für das Feinabstimmen selbst bei der Verwendung parameter-effizienter Ansätze wie Prompt Tuning sehr hoch sind. Zusätzlich sind die leistungsstärksten Multitask-LLMs wie OPT-IML-175B und FLAN-PaLM-540B nicht öffentlich zugänglich, was ihr Anpassungspotenzial stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir einen vortrainierten kleinen Scorer namens Cappy vor, der die Leistung und Effizienz von Multitask-LLMs verbessern soll. Mit lediglich 360 Millionen Parametern kann Cappy entweder unabhängig bei Klassifikationsaufgaben agieren oder als Hilfskomponente für LLMs dienen, um deren Leistung zu steigern. Darüber hinaus ermöglicht Cappy die effiziente Integration von nachgelagerter Überwachung, ohne dass ein Feinabstimmen des LLMs oder der Zugriff auf dessen Parameter erforderlich ist. Unsere Experimente zeigen, dass Cappy bei der unabhängigen Bearbeitung von 11 Sprachverständnisaufgaben aus PromptSource LLMs, die um mehrere Größenordnungen größer sind, übertrifft. Zudem verbessert Cappy auf 45 komplexen Aufgaben aus BIG-Bench die Leistung des fortschrittlichen Multitask-LLMs FLAN-T5 erheblich. Darüber hinaus ist Cappy flexibel genug, um mit anderen Anpassungen von LLMs zusammenzuarbeiten, einschließlich Feinabstimmen und In-Context-Lernen, und bietet dadurch zusätzliche Leistungssteigerungen.

English

Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel in multi-tasking under a unified instruction-following paradigm, where they also exhibit remarkable generalization abilities to unseen tasks. Despite their impressive performance, these LLMs, with sizes ranging from several billion to hundreds of billions of parameters, demand substantial computational resources, making their training and inference expensive and inefficient. Furthermore, adapting these models to downstream applications, particularly complex tasks, is often unfeasible due to the extensive hardware requirements for finetuning, even when utilizing parameter-efficient approaches such as prompt tuning. Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B and FLAN-PaLM-540B, are not publicly accessible, severely limiting their customization potential. To address these challenges, we introduce a pretrained small scorer, Cappy, designed to enhance the performance and efficiency of multi-task LLMs. With merely 360 million parameters, Cappy functions either independently on classification tasks or serve as an auxiliary component for LLMs, boosting their performance. Moreover, Cappy enables efficiently integrating downstream supervision without requiring LLM finetuning nor the access to their parameters. Our experiments demonstrate that, when working independently on 11 language understanding tasks from PromptSource, Cappy outperforms LLMs that are several orders of magnitude larger. Besides, on 45 complex tasks from BIG-Bench, Cappy boosts the performance of the advanced multi-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible to cooperate with other LLM adaptations, including finetuning and in-context learning, offering additional performance enhancement.

Cappy: Übertreffen und Verbessern großer Multi-Task-LMs mit einem kleinen Bewertungsmodul

Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

papers.abstract

Support