CLIPPER: Сжатие данных позволяет генерировать синтетические данные с длинным контекстом
CLIPPER: Compression enables long-context synthetic data generation
February 20, 2025
Авторы: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI
Аннотация
Разработчики языковых моделей всё чаще полагаются на синтетические данные, однако генерация высококачественных данных для сложных задач рассуждений в длинном контексте остаётся сложной задачей. Мы представляем CLIPPER — подход, основанный на сжатии, для генерации синтетических данных, адаптированных для проверки нарративных утверждений — задачи, требующей рассуждений на основе книги для проверки заданного утверждения. Вместо того чтобы генерировать утверждения напрямую из исходного текста книги, что приводит к утверждениям, перегруженным артефактами, CLIPPER сначала сжимает книгу в виде конспектов глав и кратких содержаний, а затем использует эти промежуточные представления для генерации сложных утверждений и соответствующих цепочек рассуждений. По сравнению с наивными подходами, CLIPPER создаёт утверждения, которые являются более достоверными, обоснованными и сложными. С помощью CLIPPER мы создали набор данных из 19 тысяч синтетических утверждений о книгах, сопоставленных с их исходными текстами и цепочками рассуждений, и использовали его для тонкой настройки трёх моделей с открытыми весами. Наша лучшая модель демонстрирует прорывные результаты в проверке нарративных утверждений (с 28% до 76% точности на нашем тестовом наборе) и устанавливает новый рекорд для моделей с менее чем 10 миллиардами параметров на лидерборде NoCha. Дополнительный анализ показывает, что наши модели генерируют более детализированные и обоснованные цепочки рассуждений, одновременно улучшая производительность на других задачах понимания нарративов (например, NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating
high-quality data for complex long-context reasoning tasks remains challenging.
We introduce CLIPPER, a compression-based approach for generating synthetic
data tailored to narrative claim verification - a task that requires reasoning
over a book to verify a given claim. Instead of generating claims directly from
the raw text of the book, which results in artifact-riddled claims, CLIPPER
first compresses the book into chapter outlines and book summaries and then
uses these intermediate representations to generate complex claims and
corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces
claims that are more valid, grounded, and complex. Using CLIPPER, we construct
a dataset of 19K synthetic book claims paired with their source texts and
chain-of-thought reasoning, and use it to fine-tune three open-weight models.
Our best model achieves breakthrough results on narrative claim verification
(from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for
sub-10B models on the NoCha leaderboard. Further analysis shows that our models
generate more detailed and grounded chain-of-thought reasoning while also
improving performance on other narrative understanding tasks (e.g.,
NarrativeQA).