ChatPaper.aiChatPaper

LongDPO : Débloquez de meilleures capacités de génération de contenu long pour les LLMs via une information améliorée étape par étape grâce à la critique.

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

February 4, 2025
Auteurs: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI

Résumé

La génération de texte long est cruciale pour la rédaction académique des articles et la génération de code au niveau des dépôts. Malgré cela, les modèles actuels, y compris le GPT-4o, présentent encore des performances insatisfaisantes. Les méthodes existantes qui utilisent l'apprentissage des préférences avec une supervision des résultats échouent souvent à fournir des retours détaillés pour des contextes étendus. Cette lacune peut entraîner un contenu qui ne satisfait pas pleinement les exigences de la requête, entraînant des problèmes tels que des écarts de longueur et une qualité diminuée. Dans cet article, nous proposons d'améliorer la génération de texte long en incorporant une supervision du processus. Nous utilisons la recherche arborescente Monte Carlo pour recueillir des paires de préférences par étapes, en utilisant un pool de mémoire global pour maintenir la cohérence. Pour résoudre le problème de la sélection de candidats suboptimaux, nous intégrons des critiques externes pour affiner et améliorer la qualité des paires de préférences. Enfin, nous appliquons une optimisation de préférences par étapes en utilisant les paires de préférences collectées. Les résultats expérimentaux montrent que notre méthode améliore la longueur et la qualité sur des référentiels de génération de texte long, avec une performance presque sans perte sur des référentiels généraux à travers diverses structures de modèles.
English
Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

Summary

AI-Generated Summary

PDF42February 5, 2025