FIAT: Fusão de Paradigmas de Aprendizado com Ajuste Acelerado por Instruções
FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning
September 9, 2023
Autores: Xinyi Wang, John Wieting, Jonathan H. Clark
cs.AI
Resumo
Os paradigmas de aprendizagem para modelos de linguagem de grande escala (LLMs) atualmente tendem a se enquadrar em duas abordagens: aprendizado em contexto (ICL) ou ajuste fino completo (fine-tuning). Cada uma dessas abordagens apresenta suas próprias compensações, dependendo de fatores como a disponibilidade de dados, o tamanho do modelo, o custo computacional, a facilidade de uso e a qualidade final, sem que nenhuma das soluções se destaque em todos os aspectos. Neste artigo, primeiro descrevemos os paradigmas de ICL e ajuste fino de forma a destacar suas conexões naturais. Com base nessas conexões, propomos um novo paradigma de aprendizagem chamado FIAT, que combina o melhor desses paradigmas, permitindo a engenharia de instruções e o raciocínio em cadeia de pensamento com os maiores modelos, ao mesmo tempo em que utiliza métodos semelhantes para realizar atualizações de parâmetros em um LLM de tamanho moderado com ajuste eficiente de parâmetros. Avaliamos a eficácia do FIAT em uma variedade de tarefas multilingues e observamos que o FIAT supera tanto o ICL quanto o ajuste fino em escalas que variam de 100 a 10.000 exemplos de treinamento. Esperamos que o FIAT ofereça uma maneira prática de aproveitar todo o potencial dos LLMs sem a necessidade de fazer uma escolha difícil entre paradigmas de aprendizagem.
English
Learning paradigms for large language models (LLMs) currently tend to fall
within either in-context learning (ICL) or full fine-tuning. Each of these
comes with their own trade-offs based on available data, model size, compute
cost, ease-of-use, and final quality with neither solution performing well
across-the-board. In this article, we first describe ICL and fine-tuning
paradigms in a way that highlights their natural connections. Based on these
connections, we propose a new learning paradigm called FIAT that fuses the best
of these paradigms together, enabling prompt-engineered instructions and
chain-of-thought reasoning with the very largest models while also using
similar methods to perform parameter updates on a modestly-sized LLM with
parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of
multilingual tasks and observe that FIAT performs better than both ICL and
fine-tuning at scales ranging from 100-10,000 training examples. We hope that
FIAT provides a practical way of harnessing the full potential of LLMs without
needing to make a hard choice between learning paradigms.