CLIPPER: La compressione abilita la generazione di dati sintetici a contesto lungo
CLIPPER: Compression enables long-context synthetic data generation
February 20, 2025
Autori: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI
Abstract
Gli sviluppatori di LLM stanno diventando sempre più dipendenti dai dati sintetici, ma generare dati di alta qualità per compiti complessi di ragionamento a lungo contesto rimane una sfida. Introduciamo CLIPPER, un approccio basato sulla compressione per generare dati sintetici specifici per la verifica di affermazioni narrative, un compito che richiede il ragionamento su un libro per verificare una determinata affermazione. Invece di generare direttamente le affermazioni dal testo grezzo del libro, che risulta in affermazioni piene di artefatti, CLIPPER prima comprime il libro in riassunti dei capitoli e del libro, e poi utilizza queste rappresentazioni intermedie per generare affermazioni complesse e i corrispondenti ragionamenti a catena. Rispetto agli approcci ingenui, CLIPPER produce affermazioni più valide, fondate e complesse. Utilizzando CLIPPER, abbiamo costruito un dataset di 19K affermazioni sintetiche su libri abbinate ai loro testi sorgente e ai ragionamenti a catena, e lo abbiamo utilizzato per ottimizzare tre modelli open-weight. Il nostro miglior modello raggiunge risultati rivoluzionari nella verifica di affermazioni narrative (dal 28% al 76% di accuratezza sul nostro set di test) e stabilisce un nuovo stato dell'arte per i modelli sub-10B sulla leaderboard di NoCha. Un'ulteriore analisi mostra che i nostri modelli generano ragionamenti a catena più dettagliati e fondati, migliorando anche le prestazioni su altri compiti di comprensione narrativa (ad esempio, NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating
high-quality data for complex long-context reasoning tasks remains challenging.
We introduce CLIPPER, a compression-based approach for generating synthetic
data tailored to narrative claim verification - a task that requires reasoning
over a book to verify a given claim. Instead of generating claims directly from
the raw text of the book, which results in artifact-riddled claims, CLIPPER
first compresses the book into chapter outlines and book summaries and then
uses these intermediate representations to generate complex claims and
corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces
claims that are more valid, grounded, and complex. Using CLIPPER, we construct
a dataset of 19K synthetic book claims paired with their source texts and
chain-of-thought reasoning, and use it to fine-tune three open-weight models.
Our best model achieves breakthrough results on narrative claim verification
(from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for
sub-10B models on the NoCha leaderboard. Further analysis shows that our models
generate more detailed and grounded chain-of-thought reasoning while also
improving performance on other narrative understanding tasks (e.g.,
NarrativeQA).Summary
AI-Generated Summary