ChatPaper.aiChatPaper

Source2Synth: Geração de Dados Sintéticos e Curadoria Fundamentadas em Fontes de Dados Reais

Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

September 12, 2024
Autores: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI

Resumo

Grandes Modelos de Linguagem ainda enfrentam dificuldades em cenários desafiadores que envolvem dados estruturados, raciocínio complexo ou uso de ferramentas. Neste artigo, propomos Source2Synth: um novo método que pode ser usado para ensinar a LLMs novas habilidades sem depender de anotações humanas custosas. Source2Synth recebe como entrada uma fonte de dados personalizada e produz pontos de dados sintéticos com etapas de raciocínio intermediárias fundamentadas em fontes do mundo real. Source2Synth melhora a qualidade do conjunto de dados descartando gerações de baixa qualidade com base em sua capacidade de resposta. Demonstramos a generalidade deste método aplicando-o a dois domínios desafiadores: testamos habilidades de raciocínio em perguntas de múltiplos saltos (MHQA) e uso de ferramentas em perguntas respondidas em tabelas (TQA). Nosso método melhora o desempenho em 25,51% para TQA no WikiSQL e 22,57% para MHQA no HotPotQA em comparação com os modelos de referência ajustados finamente.
English
Large Language Models still struggle in challenging scenarios that leverage structured data, complex reasoning, or tool usage. In this paper, we propose Source2Synth: a new method that can be used for teaching LLMs new skills without relying on costly human annotations. Source2Synth takes as input a custom data source and produces synthetic data points with intermediate reasoning steps grounded in real-world sources. Source2Synth improves the dataset quality by discarding low-quality generations based on their answerability. We demonstrate the generality of this approach by applying it to two challenging domains: we test reasoning abilities in multi-hop question answering (MHQA), and tool usage in tabular question answering (TQA). Our method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on HotPotQA compared to the fine-tuned baselines.

Summary

AI-Generated Summary

PDF212November 16, 2024