CLIPPER : La compression permet la génération de données synthétiques à contexte long
CLIPPER: Compression enables long-context synthetic data generation
February 20, 2025
Auteurs: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI
Résumé
Les développeurs de LLM dépendent de plus en plus de données synthétiques, mais la génération de données de haute qualité pour des tâches complexes de raisonnement en contexte long reste un défi. Nous présentons CLIPPER, une approche basée sur la compression pour générer des données synthétiques adaptées à la vérification de revendications narratives - une tâche qui nécessite un raisonnement sur un livre pour vérifier une revendication donnée. Au lieu de générer directement des revendications à partir du texte brut du livre, ce qui produit des revendications truffées d'artefacts, CLIPPER compresse d'abord le livre en résumés de chapitres et en résumés du livre, puis utilise ces représentations intermédiaires pour générer des revendications complexes et les chaînes de raisonnement correspondantes. Par rapport aux approches naïves, CLIPPER produit des revendications plus valides, fondées et complexes. En utilisant CLIPPER, nous construisons un ensemble de données de 19K revendications synthétiques de livres, associées à leurs textes sources et à leurs chaînes de raisonnement, et l'utilisons pour affiner trois modèles à poids ouverts. Notre meilleur modèle obtient des résultats révolutionnaires en vérification de revendications narratives (passant de 28% à 76% de précision sur notre ensemble de test) et établit un nouvel état de l'art pour les modèles de moins de 10B sur le classement NoCha. Une analyse plus approfondie montre que nos modèles génèrent des chaînes de raisonnement plus détaillées et fondées, tout en améliorant les performances sur d'autres tâches de compréhension narrative (par exemple, NarrativeQA).
English
LLM developers are increasingly reliant on synthetic data, but generating
high-quality data for complex long-context reasoning tasks remains challenging.
We introduce CLIPPER, a compression-based approach for generating synthetic
data tailored to narrative claim verification - a task that requires reasoning
over a book to verify a given claim. Instead of generating claims directly from
the raw text of the book, which results in artifact-riddled claims, CLIPPER
first compresses the book into chapter outlines and book summaries and then
uses these intermediate representations to generate complex claims and
corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces
claims that are more valid, grounded, and complex. Using CLIPPER, we construct
a dataset of 19K synthetic book claims paired with their source texts and
chain-of-thought reasoning, and use it to fine-tune three open-weight models.
Our best model achieves breakthrough results on narrative claim verification
(from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for
sub-10B models on the NoCha leaderboard. Further analysis shows that our models
generate more detailed and grounded chain-of-thought reasoning while also
improving performance on other narrative understanding tasks (e.g.,
NarrativeQA).Summary
AI-Generated Summary