CLIPPER: Kompression ermöglicht die Erzeugung synthetischer Daten mit langem Kontext
CLIPPER: Compression enables long-context synthetic data generation
February 20, 2025
Autoren: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI
Zusammenfassung
LLM-Entwickler sind zunehmend auf synthetische Daten angewiesen, doch die Generierung hochwertiger Daten für komplexe Langkontext-Aufgaben bleibt eine Herausforderung. Wir stellen CLIPPER vor, einen kompressionsbasierten Ansatz zur Erzeugung synthetischer Daten, die speziell auf die Verifikation narrativer Behauptungen zugeschnitten sind – eine Aufgabe, die das Schlussfolgern über ein Buch erfordert, um eine gegebene Behauptung zu überprüfen. Anstatt Behauptungen direkt aus dem Rohtext des Buches zu generieren, was zu fehlerhaften Behauptungen führt, komprimiert CLIPPER das Buch zunächst in Kapitelübersichten und Buchzusammenfassungen und verwendet dann diese Zwischendarstellungen, um komplexe Behauptungen und entsprechende Gedankenketten zu erzeugen. Im Vergleich zu naiven Ansätzen produziert CLIPPER Behauptungen, die valider, fundierter und komplexer sind. Mit CLIPPER erstellen wir einen Datensatz von 19.000 synthetischen Buchbehauptungen, die mit ihren Quelltexten und Gedankenketten gepaart sind, und verwenden ihn, um drei Open-Weight-Modelle zu feinabstimmen. Unser bestes Modell erzielt bahnbrechende Ergebnisse bei der Verifikation narrativer Behauptungen (von 28 % auf 76 % Genauigkeit auf unserem Testset) und setzt einen neuen State-of-the-Art für Sub-10B-Modelle auf dem NoCha-Leaderboard. Weitere Analysen zeigen, dass unsere Modelle detailliertere und fundiertere Gedankenketten generieren und gleichzeitig die Leistung bei anderen narrativen Verständnisaufgaben (z. B. NarrativeQA) verbessern.
English
LLM developers are increasingly reliant on synthetic data, but generating
high-quality data for complex long-context reasoning tasks remains challenging.
We introduce CLIPPER, a compression-based approach for generating synthetic
data tailored to narrative claim verification - a task that requires reasoning
over a book to verify a given claim. Instead of generating claims directly from
the raw text of the book, which results in artifact-riddled claims, CLIPPER
first compresses the book into chapter outlines and book summaries and then
uses these intermediate representations to generate complex claims and
corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces
claims that are more valid, grounded, and complex. Using CLIPPER, we construct
a dataset of 19K synthetic book claims paired with their source texts and
chain-of-thought reasoning, and use it to fine-tune three open-weight models.
Our best model achieves breakthrough results on narrative claim verification
(from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for
sub-10B models on the NoCha leaderboard. Further analysis shows that our models
generate more detailed and grounded chain-of-thought reasoning while also
improving performance on other narrative understanding tasks (e.g.,
NarrativeQA).Summary
AI-Generated Summary