Source2Synth: Generación y Curación de Datos Sintéticos Basada en Fuentes de Datos Reales
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
September 12, 2024
Autores: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño aún enfrentan dificultades en escenarios desafiantes que aprovechan datos estructurados, razonamiento complejo o uso de herramientas. En este documento, proponemos Source2Synth: un nuevo método que puede ser utilizado para enseñar a los LLMs nuevas habilidades sin depender de anotaciones humanas costosas. Source2Synth toma como entrada una fuente de datos personalizada y produce puntos de datos sintéticos con pasos de razonamiento intermedios fundamentados en fuentes del mundo real. Source2Synth mejora la calidad del conjunto de datos al desechar generaciones de baja calidad basadas en su capacidad de respuesta. Demostramos la generalidad de este enfoque aplicándolo a dos dominios desafiantes: probamos las habilidades de razonamiento en preguntas de múltiples saltos (MHQA) y el uso de herramientas en preguntas de respuesta tabular (TQA). Nuestro método mejora el rendimiento en un 25.51% para TQA en WikiSQL y un 22.57% para MHQA en HotPotQA en comparación con las líneas de base ajustadas finamente.
English
Large Language Models still struggle in challenging scenarios that leverage
structured data, complex reasoning, or tool usage. In this paper, we propose
Source2Synth: a new method that can be used for teaching LLMs new skills
without relying on costly human annotations. Source2Synth takes as input a
custom data source and produces synthetic data points with intermediate
reasoning steps grounded in real-world sources. Source2Synth improves the
dataset quality by discarding low-quality generations based on their
answerability. We demonstrate the generality of this approach by applying it to
two challenging domains: we test reasoning abilities in multi-hop question
answering (MHQA), and tool usage in tabular question answering (TQA). Our
method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on
HotPotQA compared to the fine-tuned baselines.Summary
AI-Generated Summary