ChatPaper.aiChatPaper

Source2Synth : Génération de données synthétiques et curation ancrées dans des sources de données réelles

Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

September 12, 2024
Auteurs: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI

Résumé

Les grands modèles de langage ont encore du mal dans des scénarios complexes qui exploitent des données structurées, un raisonnement complexe ou l'utilisation d'outils. Dans cet article, nous proposons Source2Synth : une nouvelle méthode qui peut être utilisée pour enseigner de nouvelles compétences aux GPT sans recourir à des annotations humaines coûteuses. Source2Synth prend en entrée une source de données personnalisée et produit des points de données synthétiques avec des étapes de raisonnement intermédiaires ancrées dans des sources du monde réel. Source2Synth améliore la qualité de l'ensemble de données en éliminant les générations de faible qualité en fonction de leur capacité à répondre. Nous démontrons la généralité de cette approche en l'appliquant à deux domaines difficiles : nous testons les capacités de raisonnement dans la réponse à des questions à sauts multiples (MHQA), et l'utilisation d'outils dans la réponse à des questions tabulaires (TQA). Notre méthode améliore les performances de 25,51 % pour TQA sur WikiSQL et de 22,57 % pour MHQA sur HotPotQA par rapport aux références finement ajustées.
English
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines.
PDF212November 16, 2024