CLIPPER: Сжатие данных позволяет генерировать синтетические данные с длинным контекстом

Аннотация

Разработчики языковых моделей всё чаще полагаются на синтетические данные, однако генерация высококачественных данных для сложных задач рассуждений в длинном контексте остаётся сложной задачей. Мы представляем CLIPPER — подход, основанный на сжатии, для генерации синтетических данных, адаптированных для проверки нарративных утверждений — задачи, требующей рассуждений на основе книги для проверки заданного утверждения. Вместо того чтобы генерировать утверждения напрямую из исходного текста книги, что приводит к утверждениям, перегруженным артефактами, CLIPPER сначала сжимает книгу в виде конспектов глав и кратких содержаний, а затем использует эти промежуточные представления для генерации сложных утверждений и соответствующих цепочек рассуждений. По сравнению с наивными подходами, CLIPPER создаёт утверждения, которые являются более достоверными, обоснованными и сложными. С помощью CLIPPER мы создали набор данных из 19 тысяч синтетических утверждений о книгах, сопоставленных с их исходными текстами и цепочками рассуждений, и использовали его для тонкой настройки трёх моделей с открытыми весами. Наша лучшая модель демонстрирует прорывные результаты в проверке нарративных утверждений (с 28% до 76% точности на нашем тестовом наборе) и устанавливает новый рекорд для моделей с менее чем 10 миллиардами параметров на лидерборде NoCha. Дополнительный анализ показывает, что наши модели генерируют более детализированные и обоснованные цепочки рассуждений, одновременно улучшая производительность на других задачах понимания нарративов (например, NarrativeQA).

English

LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

CLIPPER: Сжатие данных позволяет генерировать синтетические данные с длинным контекстом

CLIPPER: Compression enables long-context synthetic data generation

Аннотация

Support