LongDPO: Verbessern Sie die Fähigkeiten zur Generierung langer Formulare für LLMs durch kritikunterstützte schrittweise Informationen.
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
February 4, 2025
Autoren: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI
Zusammenfassung
Die Generierung von Langformtexten ist entscheidend für das Verfassen von wissenschaftlichen Arbeiten und die Generierung von Code auf Repository-Ebene. Trotzdem weisen aktuelle Modelle, einschließlich GPT-4o, immer noch eine unbefriedigende Leistung auf. Bestehende Methoden, die Präferenzlernen mit Ergebnisüberwachung nutzen, scheitern oft daran, detailliertes Feedback für erweiterte Kontexte bereitzustellen. Diese Schwäche kann zu Inhalten führen, die die Abfrageanforderungen nicht vollständig erfüllen, was zu Problemen wie Längenabweichungen und verringerter Qualität führt. In diesem Paper schlagen wir vor, die Generierung von Langformtexten durch die Integration von Prozessüberwachung zu verbessern. Wir verwenden Monte-Carlo-Baumsuche, um schrittweise Präferenzpaare zu sammeln, wobei ein globaler Speicherpool zur Aufrechterhaltung der Konsistenz genutzt wird. Um das Problem der suboptimalen Kandidatenauswahl anzugehen, integrieren wir externe Kritiken, um die Qualität der Präferenzpaare zu verfeinern und zu verbessern. Schließlich wenden wir schrittweise DPO unter Verwendung der gesammelten schrittweisen Präferenzpaare an. Experimentelle Ergebnisse zeigen, dass unsere Methode die Länge und Qualität bei Langformtext-Generierungstests verbessert, wobei fast verlustfreie Leistung bei allgemeinen Tests über verschiedene Modellgrundlagen hinweg erzielt wird.
English
Long-form generation is crucial for academic writing papers and repo-level
code generation. Despite this, current models, including GPT-4o, still exhibit
unsatisfactory performance. Existing methods that utilize preference learning
with outcome supervision often fail to provide detailed feedback for extended
contexts. This shortcoming can lead to content that does not fully satisfy
query requirements, resulting in issues like length deviations, and diminished
quality. In this paper, we propose enhancing long-form generation by
incorporating process supervision. We employ Monte Carlo Tree Search to gather
stepwise preference pairs, utilizing a global memory pool to maintain
consistency. To address the issue of suboptimal candidate selection, we
integrate external critiques to refine and improve the quality of the
preference pairs. Finally, we apply step-level DPO using the collected stepwise
preference pairs. Experimental results show that our method improves length and
quality on long-form generation benchmarks, with almost lossless performance on
general benchmarks across various model backbones.Summary
AI-Generated Summary