Programas de Modelos de Linguagem de Grande Escala
Large Language Model Programs
May 9, 2023
Autores: Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li
cs.AI
Resumo
Nos últimos anos, grandes modelos de linguagem pré-treinados (LLMs) demonstraram a capacidade de seguir instruções e realizar tarefas novas a partir de poucos exemplos. A possibilidade de parametrizar um LLM por meio de tais exemplos em contexto amplia sua capacidade a um custo muito menor do que o ajuste fino. Estendemos essa linha de raciocínio e apresentamos um método que expande ainda mais as capacidades de um LLM ao incorporá-lo em um algoritmo ou programa. Para demonstrar os benefícios dessa abordagem, apresentamos um exemplo ilustrativo de resposta a perguntas com suporte em evidências. Obtivemos uma melhoria de 6,4% em relação à linha de base de cadeia de pensamento por meio de uma abordagem mais algorítmica, sem qualquer ajuste fino. Além disso, destacamos trabalhos recentes sob essa perspectiva e discutimos as vantagens e desvantagens em comparação com as abordagens padrão.
English
In recent years, large pre-trained language models (LLMs) have demonstrated
the ability to follow instructions and perform novel tasks from a few examples.
The possibility to parameterise an LLM through such in-context examples widens
their capability at a much lower cost than finetuning. We extend this line of
reasoning and present a method which further expands the capabilities of an LLM
by embedding it within an algorithm or program. To demonstrate the benefits of
this approach, we present an illustrative example of evidence-supported
question-answering. We obtain a 6.4\% improvement over the chain of thought
baseline through a more algorithmic approach without any finetuning.
Furthermore, we highlight recent work from this perspective and discuss the
advantages and disadvantages in comparison to the standard approaches.