LongDPO: Ontgrendel betere mogelijkheden voor het genereren van lange vormen voor LLM's via kritiek-versterkte stapsgewijze informatie.

Samenvatting

Het genereren van lange vormen is cruciaal voor academische schrijfpapers en het genereren van code op repo-niveau. Ondanks dit vertonen huidige modellen, waaronder GPT-4o, nog steeds onbevredigende prestaties. Bestaande methoden die voorkeursleren gebruiken met uitkomstsupervisie falen vaak om gedetailleerd feedback te geven voor uitgebreide contexten. Dit tekort kan leiden tot inhoud die niet volledig voldoet aan de queryvereisten, resulterend in problemen zoals lengte-afwijkingen en verminderde kwaliteit. In dit artikel stellen we voor om het genereren van lange vormen te verbeteren door procesbegeleiding op te nemen. We maken gebruik van Monte Carlo Tree Search om stapsgewijze voorkeursparen te verzamelen, waarbij we een globaal geheugenpool gebruiken om consistentie te handhaven. Om het probleem van suboptimale kandidaatselectie aan te pakken, integreren we externe kritieken om de kwaliteit van de voorkeursparen te verfijnen en verbeteren. Ten slotte passen we stapniveau DPO toe met behulp van de verzamelde stapsgewijze voorkeursparen. Experimentele resultaten tonen aan dat onze methode de lengte en kwaliteit verbetert op benchmarks voor lange vormgeneratie, met bijna verliesloze prestaties op algemene benchmarks over verschillende modelruggengraatstructuren.

English

Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

LongDPO: Ontgrendel betere mogelijkheden voor het genereren van lange vormen voor LLM's via kritiek-versterkte stapsgewijze informatie.

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

Samenvatting

Support