Source2Synth: Generierung und Zusammenstellung synthetischer Daten basierend auf realen Datenquellen
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
September 12, 2024
Autoren: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI
Zusammenfassung
Große Sprachmodelle haben immer noch Schwierigkeiten in anspruchsvollen Szenarien, die strukturierte Daten, komplexe Argumentation oder Werkzeugnutzung nutzen. In diesem Artikel schlagen wir Source2Synth vor: eine neue Methode, die verwendet werden kann, um LLMs neue Fähigkeiten beizubringen, ohne auf teure menschliche Annotationen angewiesen zu sein. Source2Synth nimmt eine benutzerdefinierte Datenquelle als Eingabe und erzeugt synthetische Datenpunkte mit Zwischenschritten der Argumentation, die auf realen Quellen basieren. Source2Synth verbessert die Qualität des Datensatzes, indem niedrigwertige Generierungen anhand ihrer Beantwortbarkeit verworfen werden. Wir zeigen die Allgemeingültigkeit dieses Ansatzes, indem wir ihn auf zwei anspruchsvolle Bereiche anwenden: Wir testen Argumentationsfähigkeiten in der mehrstufigen Fragebeantwortung (MHQA) und Werkzeugnutzung in der tabellarischen Fragebeantwortung (TQA). Unsere Methode verbessert die Leistung um 25,51% für TQA in WikiSQL und um 22,57% für MHQA in HotPotQA im Vergleich zu den feinabgestimmten Ausgangswerten.
English
Large Language Models still struggle in challenging scenarios that leverage
structured data, complex reasoning, or tool usage. In this paper, we propose
Source2Synth: a new method that can be used for teaching LLMs new skills
without relying on costly human annotations. Source2Synth takes as input a
custom data source and produces synthetic data points with intermediate
reasoning steps grounded in real-world sources. Source2Synth improves the
dataset quality by discarding low-quality generations based on their
answerability. We demonstrate the generality of this approach by applying it to
two challenging domains: we test reasoning abilities in multi-hop question
answering (MHQA), and tool usage in tabular question answering (TQA). Our
method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on
HotPotQA compared to the fine-tuned baselines.Summary
AI-Generated Summary