ChatPaper.aiChatPaper

Lassen Sie uns Schritt für Schritt synthetisieren: Iterative Datensatzsynthese mit großen Sprachmodellen durch Extrapolation von Fehlern kleiner Modelle

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

October 20, 2023
Autoren: Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan
cs.AI

Zusammenfassung

*Data Synthesis* (Datensynthese) ist ein vielversprechender Ansatz, um ein kleines Modell mit sehr wenigen annotierten Daten zu trainieren. Eine Methode der Datensynthese besteht darin, das umfangreiche Wissen großer Sprachmodelle zu nutzen, um pseudotrainierte Beispiele für kleine Modelle zu synthetisieren, wodurch gleichzeitig Daten- und Recheneffizienz erreicht werden können. Eine zentrale Herausforderung bei der Datensynthese besteht jedoch darin, dass der synthetisierte Datensatz oft eine erhebliche Verteilungsabweichung von der *realen Aufgabenverteilung* aufweist. Daher schlagen wir in diesem Artikel *Synthesis Step by Step* (**S3**) vor, ein Datensynthese-Framework, das diese Verteilungslücke verringert, indem es die Fehler eines kleinen Modells, das auf dem synthetisierten Datensatz trainiert wurde, iterativ anhand eines kleinen realen Validierungsdatensatzes mithilfe eines großen Sprachmodells extrapoliert. Umfangreiche Experimente zu mehreren NLP-Aufgaben zeigen, dass unser Ansatz die Leistung eines kleinen Modells verbessert, indem die Lücke zwischen dem synthetischen Datensatz und den realen Daten verringert wird, was zu einer signifikanten Verbesserung im Vergleich zu mehreren Baselines führt: eine Verbesserung von 9,48 % gegenüber ZeroGen und 2,73 % gegenüber GoldGen sowie eine maximale Verbesserung von 15,17 % im Vergleich zu dem kleinen Modell, das auf von Menschen annotierten Daten trainiert wurde.
English
*Data Synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage the rich knowledge from large language models to synthesize pseudo training examples for small models, making it possible to achieve both data and compute efficiency at the same time. However, a key challenge in data synthesis is that the synthesized dataset often suffers from a large distributional discrepancy from the *real task* data distribution. Thus, in this paper, we propose *Synthesis Step by Step* (**S3**), a data synthesis framework that shrinks this distribution gap by iteratively extrapolating the errors made by a small model trained on the synthesized dataset on a small real-world validation dataset using a large language model. Extensive experiments on multiple NLP tasks show that our approach improves the performance of a small model by reducing the gap between the synthetic dataset and the real data, resulting in significant improvement compared to several baselines: 9.48% improvement compared to ZeroGen and 2.73% compared to GoldGen, and at most 15.17% improvement compared to the small model trained on human-annotated data.
PDF191December 15, 2024