LongDPO: Desbloquear Mejores Habilidades de Generación de Texto Largo para LLMs a través de Información Paso a Paso Aumentada con Crítica

Resumen

La generación de texto extenso es crucial para la redacción académica de documentos y la generación de código a nivel de repositorio. A pesar de esto, los modelos actuales, incluido GPT-4o, todavía muestran un rendimiento insatisfactorio. Los métodos existentes que utilizan el aprendizaje de preferencias con supervisión de resultados a menudo no logran proporcionar retroalimentación detallada para contextos extensos. Esta deficiencia puede dar lugar a contenido que no satisface completamente los requisitos de la consulta, lo que resulta en problemas como desviaciones de longitud y una calidad disminuida. En este artículo, proponemos mejorar la generación de texto extenso mediante la incorporación de supervisión del proceso. Empleamos la Búsqueda de Árbol de Monte Carlo para recopilar pares de preferencias paso a paso, utilizando un pool de memoria global para mantener la consistencia. Para abordar el problema de la selección subóptima de candidatos, integramos críticas externas para refinar y mejorar la calidad de los pares de preferencias. Finalmente, aplicamos DPO a nivel de paso utilizando los pares de preferencias recopilados paso a paso. Los resultados experimentales muestran que nuestro método mejora la longitud y la calidad en los puntos de referencia de generación de texto extenso, con un rendimiento casi sin pérdidas en puntos de referencia generales en varios modelos subyacentes.

English

Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.

LongDPO: Desbloquear Mejores Habilidades de Generación de Texto Largo para LLMs a través de Información Paso a Paso Aumentada con Crítica

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

Resumen

Support