Programas de Modelos de Lenguaje a Gran Escala
Large Language Model Programs
May 9, 2023
Autores: Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li
cs.AI
Resumen
En los últimos años, los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) han demostrado la capacidad de seguir instrucciones y realizar tareas novedosas a partir de unos pocos ejemplos. La posibilidad de parametrizar un LLM mediante estos ejemplos en contexto amplía sus capacidades a un costo mucho menor que el ajuste fino (finetuning). Extendemos esta línea de razonamiento y presentamos un método que expande aún más las capacidades de un LLM al integrarlo dentro de un algoritmo o programa. Para demostrar los beneficios de este enfoque, presentamos un ejemplo ilustrativo de respuesta a preguntas respaldadas por evidencia. Obtenemos una mejora del 6.4 % sobre la línea base de cadena de pensamiento (chain of thought) mediante un enfoque más algorítmico, sin necesidad de ajuste fino. Además, destacamos trabajos recientes desde esta perspectiva y discutimos las ventajas y desventajas en comparación con los enfoques estándar.
English
In recent years, large pre-trained language models (LLMs) have demonstrated
the ability to follow instructions and perform novel tasks from a few examples.
The possibility to parameterise an LLM through such in-context examples widens
their capability at a much lower cost than finetuning. We extend this line of
reasoning and present a method which further expands the capabilities of an LLM
by embedding it within an algorithm or program. To demonstrate the benefits of
this approach, we present an illustrative example of evidence-supported
question-answering. We obtain a 6.4\% improvement over the chain of thought
baseline through a more algorithmic approach without any finetuning.
Furthermore, we highlight recent work from this perspective and discuss the
advantages and disadvantages in comparison to the standard approaches.