Source2Synth: Generazione di Dati Sintetici e Cura Basata su Fonti di Dati Reali
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
September 12, 2024
Autori: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI
Abstract
I Large Language Models continuano a faticare in scenari sfidanti che sfruttano dati strutturati, ragionamenti complessi o l'uso di strumenti. In questo articolo, proponiamo Source2Synth: un nuovo metodo che può essere utilizzato per insegnare alle LLM nuove abilità senza fare affidamento su costose annotazioni umane. Source2Synth prende in input una fonte di dati personalizzata e produce punti dati sintetici con passaggi di ragionamento intermedi basati su fonti del mondo reale. Source2Synth migliora la qualità del dataset scartando le generazioni di bassa qualità in base alla loro rispondibilità. Dimostriamo la generalità di questo approccio applicandolo a due domini impegnativi: testiamo le capacità di ragionamento nella risposta a domande multi-hop (MHQA) e l'uso di strumenti nella risposta a domande tabulari (TQA). Il nostro metodo migliora le prestazioni del 25,51% per TQA su WikiSQL e del 22,57% per MHQA su HotPotQA rispetto alle basi sintonizzate finemente.
English
Large Language Models still struggle in challenging scenarios that leverage
structured data, complex reasoning, or tool usage. In this paper, we propose
Source2Synth: a new method that can be used for teaching LLMs new skills
without relying on costly human annotations. Source2Synth takes as input a
custom data source and produces synthetic data points with intermediate
reasoning steps grounded in real-world sources. Source2Synth improves the
dataset quality by discarding low-quality generations based on their
answerability. We demonstrate the generality of this approach by applying it to
two challenging domains: we test reasoning abilities in multi-hop question
answering (MHQA), and tool usage in tabular question answering (TQA). Our
method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on
HotPotQA compared to the fine-tuned baselines.Summary
AI-Generated Summary