ChatPaper.aiChatPaper

Source2Synth: Generatie en Curatie van Synthetische Data Gebaseerd op Echte Databronnen

Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

September 12, 2024
Auteurs: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI

Samenvatting

Grote Taalmodellen worstelen nog steeds in uitdagende scenario's die gebruikmaken van gestructureerde data, complex redeneren of gereedschappen. In dit artikel stellen we Source2Synth voor: een nieuwe methode die kan worden gebruikt om LLMs nieuwe vaardigheden aan te leren zonder te vertrouwen op kostbare menselijke annotaties. Source2Synth neemt een aangepaste databron als input en produceert synthetische datapunten met tussenliggende redeneringsstappen gebaseerd op bronnen uit de echte wereld. Source2Synth verbetert de datasetkwaliteit door lage kwaliteit generaties te verwerpen op basis van hun beantwoordbaarheid. We tonen de algemeenheid van deze aanpak aan door deze toe te passen op twee uitdagende domeinen: we testen redeneervaardigheden in multi-hop vraagbeantwoording (MHQA) en gereedschapsgebruik in tabulaire vraagbeantwoording (TQA). Onze methode verbetert de prestaties met 25.51% voor TQA op WikiSQL en 22.57% voor MHQA op HotPotQA in vergelijking met de fijnafgestemde baselines.
English
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines.

Summary

AI-Generated Summary

PDF212November 16, 2024