ChatPaper.aiChatPaper

CodecLM: 맞춤형 합성 데이터를 활용한 언어 모델 정렬

CodecLM: Aligning Language Models with Tailored Synthetic Data

April 8, 2024
저자: Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister
cs.AI

초록

인스트럭션 튜닝은 대규모 언어 모델(LLM)을 특정 작업 지시에 맞추는 데 있어 핵심적인 역할을 하며, 다음 토큰 예측 목표와 사용자의 실제 목표 간의 불일치를 완화합니다. 인간이 데이터를 수집하거나 주석을 다는 데 드는 노력과 시간 비용을 줄이기 위해, 연구자들은 LLM을 활용하여 인스트럭션에 맞춘 합성 데이터를 생성하는 방법을 탐구하기 시작했습니다. 최근 연구들은 다양한 인스트럭션을 생성하고 LLM을 적용하여 인스트럭션의 복잡성을 높이는 데 초점을 맞추고 있지만, 다운스트림 사용 사례를 간과하는 경우가 많습니다. 서로 다른 목표 인스트럭션 분포와 LLM에서 더 나은 인스트럭션 수행 능력을 이끌어내기 위해 고품질 데이터를 어떻게 맞춤화할지에 대한 명확한 방법은 여전히 불분명합니다. 이를 위해, 우리는 CodecLM을 소개합니다. 이는 다양한 다운스트림 인스트럭션 분포와 LLM에 맞춰 고품질 합성 데이터를 적응적으로 생성하기 위한 일반적인 프레임워크입니다. 인코드-디코드 원칙을 차용하여, 우리는 LLM을 코덱으로 사용하여 데이터 생성 과정을 안내합니다. 먼저 시드 인스트럭션을 메타데이터로 인코딩하는데, 이는 목표 인스트럭션 분포를 포착하기 위해 실시간으로 생성된 간결한 키워드입니다. 그런 다음 메타데이터를 디코딩하여 맞춤형 인스트럭션을 생성합니다. 또한 디코딩 과정에서 Self-Rubrics와 Contrastive Filtering을 도입하여 데이터 효율적인 샘플을 맞춤화합니다. 네 가지 오픈 도메인 인스트럭션 수행 벤치마크에서의 광범위한 실험을 통해 CodecLM이 현재 최신 기술을 능가하는 효과를 입증했습니다.
English
Instruction tuning has emerged as the key in aligning large language models (LLMs) with specific task instructions, thereby mitigating the discrepancy between the next-token prediction objective and users' actual goals. To reduce the labor and time cost to collect or annotate data by humans, researchers start to explore the use of LLMs to generate instruction-aligned synthetic data. Recent works focus on generating diverse instructions and applying LLM to increase instruction complexity, often neglecting downstream use cases. It remains unclear how to tailor high-quality data to elicit better instruction-following abilities in different target instruction distributions and LLMs. To this end, we introduce CodecLM, a general framework for adaptively generating high-quality synthetic data for LLM alignment with different downstream instruction distributions and LLMs. Drawing on the Encode-Decode principles, we use LLMs as codecs to guide the data generation process. We first encode seed instructions into metadata, which are concise keywords generated on-the-fly to capture the target instruction distribution, and then decode metadata to create tailored instructions. We also introduce Self-Rubrics and Contrastive Filtering during decoding to tailor data-efficient samples. Extensive experiments on four open-domain instruction following benchmarks validate the effectiveness of CodecLM over the current state-of-the-arts.

Summary

AI-Generated Summary

PDF180December 15, 2024