Cappy: Superando e Potencializando Grandes Modelos de Linguagem Multitarefa com um Pequeno Avaliador

Resumo

Modelos de linguagem de grande escala (LLMs), como T0, FLAN e OPT-IML, destacam-se na execução de múltiplas tarefas sob um paradigma unificado de seguimento de instruções, onde também exibem habilidades notáveis de generalização para tarefas não vistas. Apesar de seu desempenho impressionante, esses LLMs, com tamanhos que variam de vários bilhões a centenas de bilhões de parâmetros, demandam recursos computacionais substanciais, tornando seu treinamento e inferência caros e ineficientes. Além disso, adaptar esses modelos para aplicações downstream, particularmente tarefas complexas, muitas vezes é inviável devido aos extensos requisitos de hardware para ajuste fino, mesmo ao utilizar abordagens eficientes em parâmetros, como o ajuste de prompts. Adicionalmente, os LLMs multitarefa mais poderosos, como OPT-IML-175B e FLAN-PaLM-540B, não são publicamente acessíveis, limitando severamente seu potencial de personalização. Para enfrentar esses desafios, introduzimos um pequeno avaliador pré-treinado, Cappy, projetado para melhorar o desempenho e a eficiência de LLMs multitarefa. Com apenas 360 milhões de parâmetros, Cappy funciona de forma independente em tarefas de classificação ou serve como um componente auxiliar para LLMs, impulsionando seu desempenho. Além disso, Cappy permite integrar eficientemente supervisão downstream sem a necessidade de ajuste fino do LLM nem acesso aos seus parâmetros. Nossos experimentos demonstram que, ao trabalhar de forma independente em 11 tarefas de compreensão de linguagem do PromptSource, Cappy supera LLMs que são várias ordens de magnitude maiores. Além disso, em 45 tarefas complexas do BIG-Bench, Cappy aumenta significativamente o desempenho do avançado LLM multitarefa, FLAN-T5. Adicionalmente, Cappy é flexível para cooperar com outras adaptações de LLM, incluindo ajuste fino e aprendizado em contexto, oferecendo um aprimoramento adicional de desempenho.

English

Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel in multi-tasking under a unified instruction-following paradigm, where they also exhibit remarkable generalization abilities to unseen tasks. Despite their impressive performance, these LLMs, with sizes ranging from several billion to hundreds of billions of parameters, demand substantial computational resources, making their training and inference expensive and inefficient. Furthermore, adapting these models to downstream applications, particularly complex tasks, is often unfeasible due to the extensive hardware requirements for finetuning, even when utilizing parameter-efficient approaches such as prompt tuning. Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B and FLAN-PaLM-540B, are not publicly accessible, severely limiting their customization potential. To address these challenges, we introduce a pretrained small scorer, Cappy, designed to enhance the performance and efficiency of multi-task LLMs. With merely 360 million parameters, Cappy functions either independently on classification tasks or serve as an auxiliary component for LLMs, boosting their performance. Moreover, Cappy enables efficiently integrating downstream supervision without requiring LLM finetuning nor the access to their parameters. Our experiments demonstrate that, when working independently on 11 language understanding tasks from PromptSource, Cappy outperforms LLMs that are several orders of magnitude larger. Besides, on 45 complex tasks from BIG-Bench, Cappy boosts the performance of the advanced multi-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible to cooperate with other LLM adaptations, including finetuning and in-context learning, offering additional performance enhancement.

Cappy: Superando e Potencializando Grandes Modelos de Linguagem Multitarefa com um Pequeno Avaliador

Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

Resumo

Support