ChatPaper.aiChatPaper

Cappy: Superando y Potenciando Modelos de Lenguaje Multitarea Grandes con un Pequeño Evaluador

Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

November 12, 2023
Autores: Bowen Tan, Yun Zhu, Lijuan Liu, Eric Xing, Zhiting Hu, Jindong Chen
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como T0, FLAN y OPT-IML destacan en la realización de múltiples tareas bajo un paradigma unificado de seguimiento de instrucciones, donde también exhiben una notable capacidad de generalización hacia tareas no vistas. A pesar de su impresionante rendimiento, estos LLMs, con tamaños que van desde varios miles de millones hasta cientos de miles de millones de parámetros, requieren recursos computacionales sustanciales, lo que hace que su entrenamiento e inferencia sean costosos e ineficientes. Además, adaptar estos modelos a aplicaciones específicas, particularmente tareas complejas, a menudo no es factible debido a los extensos requisitos de hardware para el ajuste fino, incluso cuando se utilizan enfoques eficientes en parámetros como el ajuste de prompts. Adicionalmente, los LLMs más potentes para múltiples tareas, como OPT-IML-175B y FLAN-PaLM-540B, no son de acceso público, lo que limita severamente su potencial de personalización. Para abordar estos desafíos, presentamos un pequeño clasificador preentrenado, Cappy, diseñado para mejorar el rendimiento y la eficiencia de los LLMs de múltiples tareas. Con apenas 360 millones de parámetros, Cappy funciona de manera independiente en tareas de clasificación o como un componente auxiliar para los LLMs, mejorando su rendimiento. Además, Cappy permite integrar eficientemente la supervisión de tareas específicas sin necesidad de ajustar el LLM ni acceder a sus parámetros. Nuestros experimentos demuestran que, al trabajar de manera independiente en 11 tareas de comprensión del lenguaje de PromptSource, Cappy supera a LLMs que son varios órdenes de magnitud más grandes. Además, en 45 tareas complejas de BIG-Bench, Cappy mejora significativamente el rendimiento del avanzado LLM de múltiples tareas, FLAN-T5. Además, Cappy es flexible para cooperar con otras adaptaciones de LLMs, incluyendo el ajuste fino y el aprendizaje en contexto, ofreciendo una mejora adicional en el rendimiento.
English
Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel in multi-tasking under a unified instruction-following paradigm, where they also exhibit remarkable generalization abilities to unseen tasks. Despite their impressive performance, these LLMs, with sizes ranging from several billion to hundreds of billions of parameters, demand substantial computational resources, making their training and inference expensive and inefficient. Furthermore, adapting these models to downstream applications, particularly complex tasks, is often unfeasible due to the extensive hardware requirements for finetuning, even when utilizing parameter-efficient approaches such as prompt tuning. Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B and FLAN-PaLM-540B, are not publicly accessible, severely limiting their customization potential. To address these challenges, we introduce a pretrained small scorer, Cappy, designed to enhance the performance and efficiency of multi-task LLMs. With merely 360 million parameters, Cappy functions either independently on classification tasks or serve as an auxiliary component for LLMs, boosting their performance. Moreover, Cappy enables efficiently integrating downstream supervision without requiring LLM finetuning nor the access to their parameters. Our experiments demonstrate that, when working independently on 11 language understanding tasks from PromptSource, Cappy outperforms LLMs that are several orders of magnitude larger. Besides, on 45 complex tasks from BIG-Bench, Cappy boosts the performance of the advanced multi-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible to cooperate with other LLM adaptations, including finetuning and in-context learning, offering additional performance enhancement.
PDF90December 15, 2024