LongDPO: Ontgrendel betere mogelijkheden voor het genereren van lange vormen voor LLM's via kritiek-versterkte stapsgewijze informatie.
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
February 4, 2025
Auteurs: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI
Samenvatting
Het genereren van lange vormen is cruciaal voor academische schrijfpapers en het genereren van code op repo-niveau. Ondanks dit vertonen huidige modellen, waaronder GPT-4o, nog steeds onbevredigende prestaties. Bestaande methoden die voorkeursleren gebruiken met uitkomstsupervisie falen vaak om gedetailleerd feedback te geven voor uitgebreide contexten. Dit tekort kan leiden tot inhoud die niet volledig voldoet aan de queryvereisten, resulterend in problemen zoals lengte-afwijkingen en verminderde kwaliteit. In dit artikel stellen we voor om het genereren van lange vormen te verbeteren door procesbegeleiding op te nemen. We maken gebruik van Monte Carlo Tree Search om stapsgewijze voorkeursparen te verzamelen, waarbij we een globaal geheugenpool gebruiken om consistentie te handhaven. Om het probleem van suboptimale kandidaatselectie aan te pakken, integreren we externe kritieken om de kwaliteit van de voorkeursparen te verfijnen en verbeteren. Ten slotte passen we stapniveau DPO toe met behulp van de verzamelde stapsgewijze voorkeursparen. Experimentele resultaten tonen aan dat onze methode de lengte en kwaliteit verbetert op benchmarks voor lange vormgeneratie, met bijna verliesloze prestaties op algemene benchmarks over verschillende modelruggengraatstructuren.
English
Long-form generation is crucial for academic writing papers and repo-level
code generation. Despite this, current models, including GPT-4o, still exhibit
unsatisfactory performance. Existing methods that utilize preference learning
with outcome supervision often fail to provide detailed feedback for extended
contexts. This shortcoming can lead to content that does not fully satisfy
query requirements, resulting in issues like length deviations, and diminished
quality. In this paper, we propose enhancing long-form generation by
incorporating process supervision. We employ Monte Carlo Tree Search to gather
stepwise preference pairs, utilizing a global memory pool to maintain
consistency. To address the issue of suboptimal candidate selection, we
integrate external critiques to refine and improve the quality of the
preference pairs. Finally, we apply step-level DPO using the collected stepwise
preference pairs. Experimental results show that our method improves length and
quality on long-form generation benchmarks, with almost lossless performance on
general benchmarks across various model backbones.Summary
AI-Generated Summary