CLIPPER: A compressão permite a geração de dados sintéticos de contexto longo
CLIPPER: Compression enables long-context synthetic data generation
February 20, 2025
Autores: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI
Resumo
Desenvolvedores de LLMs estão cada vez mais dependentes de dados sintéticos, mas a geração de dados de alta qualidade para tarefas complexas de raciocínio de contexto longo continua sendo um desafio. Apresentamos o CLIPPER, uma abordagem baseada em compressão para gerar dados sintéticos adaptados à verificação de afirmações narrativas - uma tarefa que exige raciocínio sobre um livro para verificar uma afirmação dada. Em vez de gerar afirmações diretamente a partir do texto bruto do livro, o que resulta em afirmações repletas de artefatos, o CLIPPER primeiro comprime o livro em resumos de capítulos e resumos do livro e, em seguida, usa essas representações intermediárias para gerar afirmações complexas e cadeias de pensamento correspondentes. Em comparação com abordagens ingênuas, o CLIPPER produz afirmações que são mais válidas, fundamentadas e complexas. Usando o CLIPPER, construímos um conjunto de dados de 19 mil afirmações sintéticas de livros, pareadas com seus textos-fonte e cadeias de raciocínio, e o utilizamos para ajustar três modelos de código aberto. Nosso melhor modelo alcança resultados revolucionários na verificação de afirmações narrativas (de 28% para 76% de precisão em nosso conjunto de testes) e estabelece um novo estado da arte para modelos com menos de 10 bilhões de parâmetros no leaderboard do NoCha. Análises adicionais mostram que nossos modelos geram cadeias de raciocínio mais detalhadas e fundamentadas, ao mesmo tempo em que melhoram o desempenho em outras tarefas de compreensão narrativa (por exemplo, NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating
high-quality data for complex long-context reasoning tasks remains challenging.
We introduce CLIPPER, a compression-based approach for generating synthetic
data tailored to narrative claim verification - a task that requires reasoning
over a book to verify a given claim. Instead of generating claims directly from
the raw text of the book, which results in artifact-riddled claims, CLIPPER
first compresses the book into chapter outlines and book summaries and then
uses these intermediate representations to generate complex claims and
corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces
claims that are more valid, grounded, and complex. Using CLIPPER, we construct
a dataset of 19K synthetic book claims paired with their source texts and
chain-of-thought reasoning, and use it to fine-tune three open-weight models.
Our best model achieves breakthrough results on narrative claim verification
(from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for
sub-10B models on the NoCha leaderboard. Further analysis shows that our models
generate more detailed and grounded chain-of-thought reasoning while also
improving performance on other narrative understanding tasks (e.g.,
NarrativeQA).