LongDPO: Desbloquear Mejores Habilidades de Generación de Texto Largo para LLMs a través de Información Paso a Paso Aumentada con Crítica
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
February 4, 2025
Autores: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang
cs.AI
Resumen
La generación de texto extenso es crucial para la redacción académica de documentos y la generación de código a nivel de repositorio. A pesar de esto, los modelos actuales, incluido GPT-4o, todavía muestran un rendimiento insatisfactorio. Los métodos existentes que utilizan el aprendizaje de preferencias con supervisión de resultados a menudo no logran proporcionar retroalimentación detallada para contextos extensos. Esta deficiencia puede dar lugar a contenido que no satisface completamente los requisitos de la consulta, lo que resulta en problemas como desviaciones de longitud y una calidad disminuida. En este artículo, proponemos mejorar la generación de texto extenso mediante la incorporación de supervisión del proceso. Empleamos la Búsqueda de Árbol de Monte Carlo para recopilar pares de preferencias paso a paso, utilizando un pool de memoria global para mantener la consistencia. Para abordar el problema de la selección subóptima de candidatos, integramos críticas externas para refinar y mejorar la calidad de los pares de preferencias. Finalmente, aplicamos DPO a nivel de paso utilizando los pares de preferencias recopilados paso a paso. Los resultados experimentales muestran que nuestro método mejora la longitud y la calidad en los puntos de referencia de generación de texto extenso, con un rendimiento casi sin pérdidas en puntos de referencia generales en varios modelos subyacentes.
English
Long-form generation is crucial for academic writing papers and repo-level
code generation. Despite this, current models, including GPT-4o, still exhibit
unsatisfactory performance. Existing methods that utilize preference learning
with outcome supervision often fail to provide detailed feedback for extended
contexts. This shortcoming can lead to content that does not fully satisfy
query requirements, resulting in issues like length deviations, and diminished
quality. In this paper, we propose enhancing long-form generation by
incorporating process supervision. We employ Monte Carlo Tree Search to gather
stepwise preference pairs, utilizing a global memory pool to maintain
consistency. To address the issue of suboptimal candidate selection, we
integrate external critiques to refine and improve the quality of the
preference pairs. Finally, we apply step-level DPO using the collected stepwise
preference pairs. Experimental results show that our method improves length and
quality on long-form generation benchmarks, with almost lossless performance on
general benchmarks across various model backbones.Summary
AI-Generated Summary