LongDPO: Desbloquear Melhores Habilidades de Geração de Textos Longos para LLMs via Informações Incrementais Aprimoradas pela Crítica
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
February 4, 2025
Autores: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI
Resumo
A geração de longos textos é crucial para a escrita acadêmica de artigos e para a geração de código em nível de repositório. Apesar disso, os modelos atuais, incluindo o GPT-4o, ainda apresentam desempenho insatisfatório. Os métodos existentes que utilizam aprendizado de preferência com supervisão de resultados frequentemente falham em fornecer feedback detalhado para contextos extensos. Essa deficiência pode resultar em conteúdo que não atende totalmente aos requisitos da consulta, resultando em problemas como desvios de comprimento e qualidade reduzida. Neste artigo, propomos aprimorar a geração de longos textos incorporando supervisão do processo. Utilizamos a busca de árvore de Monte Carlo para reunir pares de preferência passo a passo, utilizando um pool de memória global para manter a consistência. Para abordar o problema da seleção subótima de candidatos, integramos críticas externas para refinar e melhorar a qualidade dos pares de preferência. Por fim, aplicamos DPO em nível de passo usando os pares de preferência coletados passo a passo. Os resultados experimentais mostram que nosso método melhora o comprimento e a qualidade em benchmarks de geração de longos textos, com quase nenhum prejuízo de desempenho em benchmarks gerais em várias estruturas de modelos.
English
Long-form generation is crucial for academic writing papers and repo-level
code generation. Despite this, current models, including GPT-4o, still exhibit
unsatisfactory performance. Existing methods that utilize preference learning
with outcome supervision often fail to provide detailed feedback for extended
contexts. This shortcoming can lead to content that does not fully satisfy
query requirements, resulting in issues like length deviations, and diminished
quality. In this paper, we propose enhancing long-form generation by
incorporating process supervision. We employ Monte Carlo Tree Search to gather
stepwise preference pairs, utilizing a global memory pool to maintain
consistency. To address the issue of suboptimal candidate selection, we
integrate external critiques to refine and improve the quality of the
preference pairs. Finally, we apply step-level DPO using the collected stepwise
preference pairs. Experimental results show that our method improves length and
quality on long-form generation benchmarks, with almost lossless performance on
general benchmarks across various model backbones.Summary
AI-Generated Summary