ChatPaper.aiChatPaper

CLIPPER: La compresión permite la generación de datos sintéticos de contexto extenso

CLIPPER: Compression enables long-context synthetic data generation

February 20, 2025
Autores: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI

Resumen

Los desarrolladores de LLM dependen cada vez más de datos sintéticos, pero generar datos de alta calidad para tareas complejas de razonamiento de contexto largo sigue siendo un desafío. Presentamos CLIPPER, un enfoque basado en compresión para generar datos sintéticos adaptados a la verificación de afirmaciones narrativas, una tarea que requiere razonar sobre un libro para verificar una afirmación dada. En lugar de generar afirmaciones directamente a partir del texto crudo del libro, lo que resulta en afirmaciones plagadas de artefactos, CLIPPER primero comprime el libro en resúmenes de capítulos y resúmenes del libro, y luego utiliza estas representaciones intermedias para generar afirmaciones complejas y cadenas de pensamiento correspondientes. En comparación con enfoques ingenuos, CLIPPER produce afirmaciones que son más válidas, fundamentadas y complejas. Utilizando CLIPPER, construimos un conjunto de datos de 19K afirmaciones sintéticas de libros emparejadas con sus textos fuente y cadenas de pensamiento, y lo usamos para ajustar tres modelos de código abierto. Nuestro mejor modelo logra resultados innovadores en la verificación de afirmaciones narrativas (de 28% a 76% de precisión en nuestro conjunto de prueba) y establece un nuevo estado del arte para modelos sub-10B en el ranking NoCha. Un análisis adicional muestra que nuestros modelos generan cadenas de pensamiento más detalladas y fundamentadas, al mismo tiempo que mejoran el rendimiento en otras tareas de comprensión narrativa (por ejemplo, NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

Summary

AI-Generated Summary

PDF82February 21, 2025