DuPO: Abilitazione di un'Autoverifica Affidabile per LLM tramite Ottimizzazione Duale delle Preferenze
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
August 20, 2025
Autori: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI
Abstract
Presentiamo DuPO, un framework di ottimizzazione delle preferenze basato sull'apprendimento duale che genera feedback senza annotazioni attraverso una dualità generalizzata. DuPO affronta due limitazioni chiave: la dipendenza del Reinforcement Learning with Verifiable Rewards (RLVR) da etichette costose e la sua applicabilità limitata a compiti verificabili, e la restrizione dell'apprendimento duale tradizionale a coppie di compiti strettamente duali (ad esempio, traduzione e retro-traduzione). Nello specifico, DuPO scompone l'input di un compito primario in componenti note e sconosciute, quindi costruisce il suo compito duale per ricostruire la parte sconosciuta utilizzando l'output primario e le informazioni note (ad esempio, invertendo soluzioni matematiche per recuperare variabili nascoste), ampliando l'applicabilità a compiti non invertibili. La qualità di questa ricostruzione funge da ricompensa auto-supervisionata per ottimizzare il compito primario, sinergizzando con la capacità dei modelli linguistici di grandi dimensioni (LLM) di istanziare entrambi i compiti attraverso un singolo modello. Empiricamente, DuPO ottiene miglioramenti significativi in vari compiti: migliora la qualità media della traduzione di 2.13 punti COMET su 756 direzioni, aumenta l'accuratezza del ragionamento matematico di una media di 6.4 punti su tre benchmark di sfida e migliora le prestazioni di 9.3 punti come riordinatore al momento dell'inferenza (scambiando calcolo con accuratezza). Questi risultati posizionano DuPO come un paradigma scalabile, generale e privo di annotazioni per l'ottimizzazione degli LLM.
English
We present DuPO, a dual learning-based preference optimization framework that
generates annotation-free feedback via a generalized duality. DuPO addresses
two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s
reliance on costly labels and applicability restricted to verifiable tasks, and
traditional dual learning's restriction to strictly dual task pairs (e.g.,
translation and back-translation). Specifically, DuPO decomposes a primal
task's input into known and unknown components, then constructs its dual task
to reconstruct the unknown part using the primal output and known information
(e.g., reversing math solutions to recover hidden variables), broadening
applicability to non-invertible tasks. The quality of this reconstruction
serves as a self-supervised reward to optimize the primal task, synergizing
with LLMs' ability to instantiate both tasks via a single model. Empirically,
DuPO achieves substantial gains across diverse tasks: it enhances the average
translation quality by 2.13 COMET over 756 directions, boosts the mathematical
reasoning accuracy by an average of 6.4 points on three challenge benchmarks,
and enhances performance by 9.3 points as an inference-time reranker (trading
computation for accuracy). These results position DuPO as a scalable, general,
and annotation-free paradigm for LLM optimization.