ChatPaper.aiChatPaper

Gesuperviseerde kennis maakt grote taalmodellen betere in-context learners

Supervised Knowledge Makes Large Language Models Better In-context Learners

December 26, 2023
Auteurs: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) vertonen opkomende in-context leervaardigheden door middel van prompt engineering. De recente vooruitgang in grootschalige generatieve modellen heeft hun toepassing in real-world taaltoepassingen verder uitgebreid. De kritieke uitdaging om de generaliseerbaarheid en feitelijkheid van LLMs in natuurlijke taalverwerking en vraag-antwoordtaken te verbeteren, blijft echter onderbelicht. Terwijl eerder onderzoek naar in-context leren zich heeft gericht op het verbeteren van modellen om aan specifieke instructies en kwaliteitsverwachtingen van gebruikers te voldoen, en ongewenste uitkomsten te vermijden, is er weinig tot geen onderzoek gedaan naar het gebruik van taakspecifiek fijn afgestelde Taalmodellen (SLMs) om de in-context leerprestaties van LLMs tijdens de inferentiefase te verbeteren. Onze primaire bijdrage is de ontwikkeling van een eenvoudig maar effectief raamwerk dat de betrouwbaarheid van LLMs verhoogt doordat het: 1) out-of-distribution data generaliseert, 2) duidelijk maakt hoe LLMs profiteren van discriminerende modellen, en 3) hallucinaties in generatieve taken minimaliseert. Met onze voorgestelde plug-in methode overtreffen verbeterde versies van Llama 2 en ChatGPT hun originele versies wat betreft generaliseerbaarheid en feitelijkheid. We bieden een uitgebreide set aan bronnen, waaronder 16 gecureerde datasets, prompts, modelcheckpoints en LLM-uitkomsten over 9 verschillende taken. Onze empirische analyse werpt licht op de voordelen van het integreren van discriminerende modellen in LLMs en benadrukt het potentieel van onze methodologie voor het bevorderen van betrouwbaardere LLMs.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
PDF91February 8, 2026