El conocimiento supervisado mejora a los modelos de lenguaje extenso como aprendices en contexto
Supervised Knowledge Makes Large Language Models Better In-context Learners
December 26, 2023
Autores: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben habilidades emergentes de aprendizaje en contexto a través de la ingeniería de prompts. Los avances recientes en modelos generativos a gran escala han ampliado aún más su uso en aplicaciones lingüísticas del mundo real. Sin embargo, el desafío crítico de mejorar la generalización y la factualidad de los LLMs en la comprensión del lenguaje natural y la respuesta a preguntas sigue siendo poco explorado. Mientras que investigaciones previas sobre el aprendizaje en contexto se han centrado en mejorar los modelos para adherirse a las instrucciones específicas y expectativas de calidad de los usuarios, y para evitar salidas no deseadas, poco o ningún trabajo ha explorado el uso de Modelos de Lenguaje Específicos de Tarea (SLMs, por sus siglas en inglés) ajustados finamente para mejorar el aprendizaje en contexto de los LLMs durante la etapa de inferencia. Nuestra contribución principal es el establecimiento de un marco simple pero efectivo que mejora la confiabilidad de los LLMs al: 1) generalizar datos fuera de distribución, 2) elucidar cómo los LLMs se benefician de modelos discriminativos, y 3) minimizar las alucinaciones en tareas generativas. Utilizando nuestro método propuesto de complemento, versiones mejoradas de Llama 2 y ChatGPT superan a sus versiones originales en términos de generalización y factualidad. Ofrecemos un conjunto completo de recursos, que incluyen 16 conjuntos de datos curados, prompts, puntos de control de modelos y salidas de LLMs en 9 tareas distintas. Nuestro análisis empírico arroja luz sobre las ventajas de incorporar modelos discriminativos en los LLMs y destaca el potencial de nuestra metodología para fomentar LLMs más confiables.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities
through prompt engineering. The recent progress in large-scale generative
models has further expanded their use in real-world language applications.
However, the critical challenge of improving the generalizability and
factuality of LLMs in natural language understanding and question answering
remains under-explored. While previous in-context learning research has focused
on enhancing models to adhere to users' specific instructions and quality
expectations, and to avoid undesired outputs, little to no work has explored
the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs'
in-context learning during the inference stage. Our primary contribution is the
establishment of a simple yet effective framework that enhances the reliability
of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs
benefit from discriminative models, and 3) minimizes hallucinations in
generative tasks. Using our proposed plug-in method, enhanced versions of Llama
2 and ChatGPT surpass their original versions regarding generalizability and
factuality. We offer a comprehensive suite of resources, including 16 curated
datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks.
Our empirical analysis sheds light on the advantages of incorporating
discriminative models into LLMs and highlights the potential of our methodology
in fostering more reliable LLMs.