ChatPaper.aiChatPaper

DuPO: Habilitando la verificación autónoma confiable en LLM mediante la optimización de preferencias duales

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

August 20, 2025
Autores: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI

Resumen

Presentamos DuPO, un marco de optimización de preferencias basado en aprendizaje dual que genera retroalimentación sin anotaciones mediante una dualidad generalizada. DuPO aborda dos limitaciones clave: la dependencia de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) en etiquetas costosas y su aplicabilidad restringida a tareas verificables, y la restricción del aprendizaje dual tradicional a pares de tareas estrictamente duales (por ejemplo, traducción y retro-traducción). Específicamente, DuPO descompone la entrada de una tarea principal en componentes conocidos y desconocidos, luego construye su tarea dual para reconstruir la parte desconocida utilizando la salida principal y la información conocida (por ejemplo, revertir soluciones matemáticas para recuperar variables ocultas), ampliando la aplicabilidad a tareas no invertibles. La calidad de esta reconstrucción sirve como recompensa auto-supervisada para optimizar la tarea principal, sinergizando con la capacidad de los LLMs para instanciar ambas tareas mediante un solo modelo. Empíricamente, DuPO logra mejoras sustanciales en diversas tareas: aumenta la calidad promedio de traducción en 2.13 COMET en 756 direcciones, incrementa la precisión de razonamiento matemático en un promedio de 6.4 puntos en tres benchmarks desafiantes, y mejora el rendimiento en 9.3 puntos como un reranker en tiempo de inferencia (intercambiando computación por precisión). Estos resultados posicionan a DuPO como un paradigma escalable, general y libre de anotaciones para la optimización de LLMs.
English
We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.
PDF782August 21, 2025