ChatPaper.aiChatPaper

단계별로 합성해보자: 소규모 모델의 오류를 외삽하여 대규모 언어 모델로 데이터셋을 반복적으로 합성하기

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

October 20, 2023
저자: Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan
cs.AI

초록

*데이터 합성*은 매우 적은 양의 레이블된 데이터로 소규모 모델을 훈련시키는 유망한 방법입니다. 데이터 합성의 한 가지 접근 방식은 대규모 언어 모델의 풍부한 지식을 활용하여 소규모 모델을 위한 가짜 훈련 예제를 합성함으로써 데이터와 계산 효율성을 동시에 달성할 수 있게 하는 것입니다. 그러나 데이터 합성의 주요 과제는 합성된 데이터셋이 종종 *실제 작업* 데이터 분포와 큰 분포적 차이를 보인다는 점입니다. 따라서 본 논문에서는 대규모 언어 모델을 사용하여 합성된 데이터셋으로 훈련된 소규모 모델이 소규모 실제 검증 데이터셋에서 발생한 오류를 반복적으로 추정함으로써 이러한 분포 격차를 줄이는 *단계별 합성*(**S3**) 프레임워크를 제안합니다. 다양한 NLP 작업에 대한 광범위한 실험을 통해 우리의 접근 방식이 합성 데이터셋과 실제 데이터 간의 격차를 줄여 소규모 모델의 성능을 향상시키며, 여러 베이스라인과 비교하여 상당한 개선을 보임을 확인했습니다: ZeroGen 대비 9.48%, GoldGen 대비 2.73%의 성능 향상을 보였으며, 인간이 주석을 단 데이터로 훈련된 소규모 모델과 비교하여 최대 15.17%의 성능 향상을 달성했습니다.
English
*Data Synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage the rich knowledge from large language models to synthesize pseudo training examples for small models, making it possible to achieve both data and compute efficiency at the same time. However, a key challenge in data synthesis is that the synthesized dataset often suffers from a large distributional discrepancy from the *real task* data distribution. Thus, in this paper, we propose *Synthesis Step by Step* (**S3**), a data synthesis framework that shrinks this distribution gap by iteratively extrapolating the errors made by a small model trained on the synthesized dataset on a small real-world validation dataset using a large language model. Extensive experiments on multiple NLP tasks show that our approach improves the performance of a small model by reducing the gap between the synthetic dataset and the real data, resulting in significant improvement compared to several baselines: 9.48% improvement compared to ZeroGen and 2.73% compared to GoldGen, and at most 15.17% improvement compared to the small model trained on human-annotated data.
PDF191December 15, 2024