ChatPaper.aiChatPaper

LongDPO: Sbloccare Migliori Capacità di Generazione di Testi Lunghi per LLM tramite Informazioni Stepwise Potenziate dalla Critica

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

February 4, 2025
Autori: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI

Abstract

La generazione di testi lunghi è fondamentale per la stesura di articoli accademici e per la generazione di codice a livello di repository. Nonostante ciò, i modelli attuali, inclusi GPT-4o, presentano ancora prestazioni insoddisfacenti. I metodi esistenti che utilizzano l'apprendimento delle preferenze con supervisione dell'output spesso non riescono a fornire un feedback dettagliato per contesti estesi. Questa carenza può portare a contenuti che non soddisfano appieno i requisiti della query, causando problemi come deviazioni di lunghezza e una qualità ridotta. In questo articolo, proponiamo di potenziare la generazione di testi lunghi integrando la supervisione del processo. Utilizziamo la Ricerca ad Albero Monte Carlo per raccogliere coppie di preferenze passo dopo passo, utilizzando un pool di memoria globale per mantenere la coerenza. Per affrontare il problema della selezione subottimale dei candidati, integriamo critiche esterne per perfezionare e migliorare la qualità delle coppie di preferenze. Infine, applichiamo la DPO a livello di passo utilizzando le coppie di preferenze raccolte passo dopo passo. I risultati sperimentali mostrano che il nostro metodo migliora lunghezza e qualità nei benchmark di generazione di testi lunghi, con prestazioni quasi senza perdite su benchmark generali attraverso vari modelli di base.
English
Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

Summary

AI-Generated Summary

PDF42February 5, 2025