ChatPaper.aiChatPaper

Source2Synth: Генерация синтетических данных и их курирование на основе реальных источников данных

Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

September 12, 2024
Авторы: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI

Аннотация

Большие языковые модели по-прежнему испытывают трудности в сложных сценариях, использующих структурированные данные, сложное рассуждение или использование инструментов. В данной статье мы предлагаем метод Source2Synth: новый подход, который можно использовать для обучения LLM новым навыкам без использования дорогостоящих аннотаций человека. Source2Synth принимает на вход исходный набор данных и генерирует синтетические данные с промежуточными шагами рассуждения, основанными на реальных источниках. Source2Synth улучшает качество набора данных путем отбрасывания низкокачественных генераций на основе их ответственности. Мы демонстрируем общность этого подхода, применяя его к двум сложным областям: мы проверяем способности к рассуждению в многошаговом вопросно-ответном взаимодействии (MHQA) и использование инструментов в вопросно-ответном взаимодействии с таблицами (TQA). Наш метод повышает производительность на 25.51% для TQA на WikiSQL и на 22.57% для MHQA на HotPotQA по сравнению с настроенными базовыми моделями.
English
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines.

Summary

AI-Generated Summary

PDF212November 16, 2024