ChatPaper.aiChatPaper

Cappy : Surpasser et renforcer les grands modèles de langage multitâches avec un petit évaluateur

Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

November 12, 2023
Auteurs: Bowen Tan, Yun Zhu, Lijuan Liu, Eric Xing, Zhiting Hu, Jindong Chen
cs.AI

Résumé

Les grands modèles de langage (LLM) tels que T0, FLAN et OPT-IML excellent dans le multitâche sous un paradigme unifié de suivi d'instructions, où ils démontrent également des capacités de généralisation remarquables pour des tâches non vues. Malgré leurs performances impressionnantes, ces LLM, dont la taille varie de plusieurs milliards à des centaines de milliards de paramètres, nécessitent des ressources computationnelles substantielles, rendant leur entraînement et leur inférence coûteux et inefficaces. De plus, l'adaptation de ces modèles à des applications en aval, en particulier pour des tâches complexes, est souvent impossible en raison des exigences matérielles importantes pour le réglage fin, même en utilisant des approches économes en paramètres comme le réglage par prompt. Par ailleurs, les LLM multitâches les plus puissants, tels qu'OPT-IML-175B et FLAN-PaLM-540B, ne sont pas accessibles au public, limitant fortement leur potentiel de personnalisation. Pour relever ces défis, nous introduisons un petit modèle pré-entraîné, Cappy, conçu pour améliorer les performances et l'efficacité des LLM multitâches. Avec seulement 360 millions de paramètres, Cappy fonctionne soit de manière indépendante sur des tâches de classification, soit comme un composant auxiliaire pour les LLM, en boostant leurs performances. De plus, Cappy permet d'intégrer efficacement une supervision en aval sans nécessiter de réglage fin des LLM ni l'accès à leurs paramètres. Nos expériences montrent que, lorsqu'il fonctionne de manière indépendante sur 11 tâches de compréhension du langage issues de PromptSource, Cappy surpasse des LLM plusieurs ordres de grandeur plus grands. Par ailleurs, sur 45 tâches complexes de BIG-Bench, Cappy améliore considérablement les performances du LLM multitâche avancé, FLAN-T5. En outre, Cappy est flexible pour coopérer avec d'autres adaptations de LLM, y compris le réglage fin et l'apprentissage en contexte, offrant une amélioration supplémentaire des performances.
English
Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel in multi-tasking under a unified instruction-following paradigm, where they also exhibit remarkable generalization abilities to unseen tasks. Despite their impressive performance, these LLMs, with sizes ranging from several billion to hundreds of billions of parameters, demand substantial computational resources, making their training and inference expensive and inefficient. Furthermore, adapting these models to downstream applications, particularly complex tasks, is often unfeasible due to the extensive hardware requirements for finetuning, even when utilizing parameter-efficient approaches such as prompt tuning. Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B and FLAN-PaLM-540B, are not publicly accessible, severely limiting their customization potential. To address these challenges, we introduce a pretrained small scorer, Cappy, designed to enhance the performance and efficiency of multi-task LLMs. With merely 360 million parameters, Cappy functions either independently on classification tasks or serve as an auxiliary component for LLMs, boosting their performance. Moreover, Cappy enables efficiently integrating downstream supervision without requiring LLM finetuning nor the access to their parameters. Our experiments demonstrate that, when working independently on 11 language understanding tasks from PromptSource, Cappy outperforms LLMs that are several orders of magnitude larger. Besides, on 45 complex tasks from BIG-Bench, Cappy boosts the performance of the advanced multi-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible to cooperate with other LLM adaptations, including finetuning and in-context learning, offering additional performance enhancement.
PDF90December 15, 2024