ChatPaper.aiChatPaper

Überwachtes Wissen macht große Sprachmodelle zu besseren In-context-Lernern

Supervised Knowledge Makes Large Language Models Better In-context Learners

December 26, 2023
Autoren: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen aufkommende Fähigkeiten zum In-Context-Lernen durch Prompt-Engineering. Die jüngsten Fortschritte bei großskaligen generativen Modellen haben ihren Einsatz in realen Sprachanwendungen weiter ausgebaut. Die entscheidende Herausforderung, die Generalisierbarkeit und Faktentreue von LLMs im Bereich des natürlichen Sprachverständnisses und der Frage-Antwort-Systeme zu verbessern, bleibt jedoch weitgehend unerforscht. Während sich frühere Forschungen zum In-Context-Lernen darauf konzentriert haben, Modelle so zu verbessern, dass sie den spezifischen Anweisungen und Qualitätserwartungen der Nutzer entsprechen und unerwünschte Ausgaben vermeiden, wurde bisher kaum untersucht, wie aufgaben-spezifisch feinabgestimmte Sprachmodelle (SLMs) genutzt werden können, um das In-Context-Lernen von LLMs während der Inferenzphase zu verbessern. Unser Hauptbeitrag ist die Entwicklung eines einfachen, aber effektiven Frameworks, das die Zuverlässigkeit von LLMs erhöht, indem es: 1) Out-of-Distribution-Daten generalisiert, 2) aufzeigt, wie LLMs von diskriminativen Modellen profitieren, und 3) Halluzinationen in generativen Aufgaben minimiert. Mit unserer vorgeschlagenen Plug-in-Methode übertreffen verbesserte Versionen von Llama 2 und ChatGPT ihre Originalversionen in Bezug auf Generalisierbarkeit und Faktentreue. Wir bieten eine umfassende Sammlung von Ressourcen, darunter 16 kuratierte Datensätze, Prompts, Modell-Checkpoints und LLM-Ausgaben über 9 verschiedene Aufgaben hinweg. Unsere empirische Analyse beleuchtet die Vorteile der Integration diskriminativer Modelle in LLMs und unterstreicht das Potenzial unserer Methodik, zuverlässigere LLMs zu fördern.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
PDF101December 15, 2024