ChatPaper.aiChatPaper

O Conhecimento Supervisionado Torna os Grandes Modelos de Linguagem Melhores Aprendizes em Contexto

Supervised Knowledge Makes Large Language Models Better In-context Learners

December 26, 2023
Autores: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) exibem habilidades emergentes de aprendizado em contexto por meio de engenharia de prompts. O progresso recente em modelos generativos de grande escala expandiu ainda mais seu uso em aplicações de linguagem do mundo real. No entanto, o desafio crítico de melhorar a generalização e a factualidade dos LLMs na compreensão de linguagem natural e na resposta a perguntas permanece pouco explorado. Embora pesquisas anteriores sobre aprendizado em contexto tenham se concentrado em aprimorar os modelos para aderir às instruções específicas dos usuários e às expectativas de qualidade, e para evitar saídas indesejadas, pouco ou nenhum trabalho explorou o uso de Modelos de Linguagem Ajustados para Tarefas Específicas (SLMs) para melhorar o aprendizado em contexto dos LLMs durante a etapa de inferência. Nossa principal contribuição é o estabelecimento de uma estrutura simples, porém eficaz, que aumenta a confiabilidade dos LLMs, pois: 1) generaliza dados fora da distribuição, 2) esclarece como os LLMs se beneficiam de modelos discriminativos e 3) minimiza alucinações em tarefas generativas. Usando nosso método proposto de plug-in, versões aprimoradas do Llama 2 e do ChatGPT superam suas versões originais em termos de generalização e factualidade. Oferecemos um conjunto abrangente de recursos, incluindo 16 conjuntos de dados curados, prompts, checkpoints de modelos e saídas de LLMs em 9 tarefas distintas. Nossa análise empírica esclarece as vantagens de incorporar modelos discriminativos aos LLMs e destaca o potencial de nossa metodologia em promover LLMs mais confiáveis.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
PDF91February 8, 2026