ChatPaper.aiChatPaper

지식 기반 감독 학습이 대규모 언어 모델의 인-컨텍스트 학습 능력을 향상시킨다

Supervised Knowledge Makes Large Language Models Better In-context Learners

December 26, 2023
저자: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang
cs.AI

초록

대규모 언어 모델(LLMs)은 프롬프트 엔지니어링을 통해 문맥 학습 능력이 점차 발전하고 있습니다. 최근 대규모 생성 모델의 진보는 실제 언어 응용 분야에서의 활용을 더욱 확장시켰습니다. 그러나 자연어 이해와 질문 응답에서 LLMs의 일반화 능력과 사실성 향상이라는 중요한 과제는 아직 충분히 탐구되지 않았습니다. 기존의 문맥 학습 연구는 사용자의 특정 지시와 품질 기대에 부응하고 원치 않는 출력을 피하도록 모델을 개선하는 데 초점을 맞추었지만, 추론 단계에서 LLMs의 문맥 학습을 개선하기 위해 작업 특화 미세 조정 언어 모델(SLMs)을 활용하는 연구는 거의 이루어지지 않았습니다. 우리의 주요 기여는 LLMs의 신뢰성을 향상시키는 간단하지만 효과적인 프레임워크를 구축한 것으로, 이는 1) 분포 외 데이터를 일반화하고, 2) LLMs가 판별 모델로부터 어떻게 이점을 얻는지를 명확히 하며, 3) 생성 작업에서의 환각 현상을 최소화합니다. 우리가 제안한 플러그인 방식을 사용하여 Llama 2와 ChatGPT의 개선된 버전은 원본 버전보다 일반화 능력과 사실성 면에서 우수한 성능을 보였습니다. 우리는 9가지 다양한 작업에 걸쳐 16개의 정제된 데이터셋, 프롬프트, 모델 체크포인트, 그리고 LLM 출력을 포함한 포괄적인 리소스 세트를 제공합니다. 우리의 실증적 분석은 판별 모델을 LLMs에 통합하는 이점을 밝히고, 우리의 방법론이 더 신뢰할 수 있는 LLMs를 조성하는 데 있어 잠재력을 강조합니다.
English
Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
PDF101December 15, 2024