ChatPaper.aiChatPaper

CLIPPER: Compressie maakt synthetische gegevensgeneratie met lange context mogelijk

CLIPPER: Compression enables long-context synthetic data generation

February 20, 2025
Auteurs: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI

Samenvatting

Ontwikkelaars van LLM's zijn steeds meer afhankelijk van synthetische data, maar het genereren van hoogwaardige data voor complexe lang-context redeneertaken blijft een uitdaging. Wij introduceren CLIPPER, een compressiegebaseerde aanpak voor het genereren van synthetische data die is toegespitst op narratieve claimverificatie – een taak die redenering over een boek vereist om een gegeven claim te verifiëren. In plaats van claims direct uit de ruwe tekst van het boek te genereren, wat resulteert in claims vol artefacten, comprimeert CLIPPER eerst het boek tot hoofdstukoverzichten en boek samenvattingen, en gebruikt vervolgens deze tussenliggende representaties om complexe claims en bijbehorende gedachtegangen te genereren. In vergelijking met naïeve benaderingen produceert CLIPPER claims die geldiger, beter onderbouwd en complexer zijn. Met CLIPPER hebben we een dataset geconstrueerd van 19K synthetische boekclaims, gekoppeld aan hun bronteksten en gedachtegangen, en hebben we deze gebruikt om drie open-weight modellen te finetunen. Ons beste model behaalt baanbrekende resultaten op narratieve claimverificatie (van 28% naar 76% nauwkeurigheid op onze testset) en vestigt een nieuwe state-of-the-art voor sub-10B modellen op de NoCha leaderboard. Verdere analyse toont aan dat onze modellen gedetailleerdere en beter onderbouwde gedachtegangen genereren, terwijl ze ook de prestaties op andere narratieve begriptaken verbeteren (bijv., NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

Summary

AI-Generated Summary

PDF82February 21, 2025