ChatPaper.aiChatPaper

LongDPO: Расширение возможностей генерации длинных форм LLM за счет критики-усиленного пошагового информационного подхода

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

February 4, 2025
Авторы: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI

Аннотация

Генерация длинных форматов является ключевым аспектом для написания научных статей и создания кода на уровне репозитория. Тем не менее, текущие модели, включая GPT-4o, все еще демонстрируют недостаточную производительность. Существующие методы, использующие обучение предпочтениям с наблюдением за результатами, часто не способны предоставить детальную обратную связь для расширенных контекстов. Этот недостаток может привести к содержанию, которое не полностью удовлетворяет требования запроса, что приводит к проблемам, таким как отклонения в длине и снижение качества. В данной статье мы предлагаем улучшить генерацию длинных форматов путем внедрения процессного наблюдения. Мы используем Монте-Карло поиск по дереву для сбора пошаговых пар предпочтений, используя глобальный пул памяти для поддержания согласованности. Для решения проблемы субоптимального выбора кандидатов мы интегрируем внешние критики для улучшения качества пар предпочтений. Наконец, мы применяем пошаговое ДПО, используя собранные пошаговые пары предпочтений. Экспериментальные результаты показывают, что наш метод улучшает длину и качество на бенчмарках генерации длинных форматов, практически без потерь производительности на общих бенчмарках с различными моделями основ.
English
Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

Summary

AI-Generated Summary

PDF42February 5, 2025