Gesuperviseerde kennis maakt grote taalmodellen betere in-context learners
Supervised Knowledge Makes Large Language Models Better In-context Learners
December 26, 2023
Auteurs: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) vertonen opkomende in-context leervaardigheden
door middel van prompt engineering. De recente vooruitgang in grootschalige generatieve
modellen heeft hun toepassing in real-world taaltoepassingen verder uitgebreid.
De kritieke uitdaging om de generaliseerbaarheid en feitelijkheid van LLMs
in natuurlijke taalverwerking en vraag-antwoordtaken te verbeteren, blijft echter onderbelicht.
Terwijl eerder onderzoek naar in-context leren zich heeft gericht op het verbeteren van modellen
om aan specifieke instructies en kwaliteitsverwachtingen van gebruikers te voldoen,
en ongewenste uitkomsten te vermijden, is er weinig tot geen onderzoek gedaan naar
het gebruik van taakspecifiek fijn afgestelde Taalmodellen (SLMs) om de in-context leerprestaties
van LLMs tijdens de inferentiefase te verbeteren. Onze primaire bijdrage is de
ontwikkeling van een eenvoudig maar effectief raamwerk dat de betrouwbaarheid van LLMs
verhoogt doordat het: 1) out-of-distribution data generaliseert, 2) duidelijk maakt hoe LLMs
profiteren van discriminerende modellen, en 3) hallucinaties in generatieve taken minimaliseert.
Met onze voorgestelde plug-in methode overtreffen verbeterde versies van Llama 2 en ChatGPT
hun originele versies wat betreft generaliseerbaarheid en feitelijkheid. We bieden een uitgebreide
set aan bronnen, waaronder 16 gecureerde datasets, prompts, modelcheckpoints en LLM-uitkomsten
over 9 verschillende taken. Onze empirische analyse werpt licht op de voordelen van het integreren
van discriminerende modellen in LLMs en benadrukt het potentieel van onze methodologie
voor het bevorderen van betrouwbaardere LLMs.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities
through prompt engineering. The recent progress in large-scale generative
models has further expanded their use in real-world language applications.
However, the critical challenge of improving the generalizability and
factuality of LLMs in natural language understanding and question answering
remains under-explored. While previous in-context learning research has focused
on enhancing models to adhere to users' specific instructions and quality
expectations, and to avoid undesired outputs, little to no work has explored
the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs'
in-context learning during the inference stage. Our primary contribution is the
establishment of a simple yet effective framework that enhances the reliability
of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs
benefit from discriminative models, and 3) minimizes hallucinations in
generative tasks. Using our proposed plug-in method, enhanced versions of Llama
2 and ChatGPT surpass their original versions regarding generalizability and
factuality. We offer a comprehensive suite of resources, including 16 curated
datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks.
Our empirical analysis sheds light on the advantages of incorporating
discriminative models into LLMs and highlights the potential of our methodology
in fostering more reliable LLMs.