DuPO: Betrouwbare Zelfverificatie van LLM's mogelijk maken via Duale Voorkeursoptimalisatie
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
August 20, 2025
Auteurs: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI
Samenvatting
Wij presenteren DuPO, een dual learning-gebaseerd voorkeursoptimalisatiekader dat annotatievrije feedback genereert via een gegeneraliseerde dualiteit. DuPO adresseert twee belangrijke beperkingen: de afhankelijkheid van Reinforcement Learning with Verifiable Rewards (RLVR) van kostbare labels en de toepasbaarheid die beperkt is tot verifieerbare taken, en de beperking van traditionele dual learning tot strikt duale taakparen (bijvoorbeeld vertaling en terugvertaling). Specifiek deelt DuPO de invoer van een primaire taak op in bekende en onbekende componenten, en construeert vervolgens de duale taak om het onbekende deel te reconstrueren met behulp van de primaire uitvoer en bekende informatie (bijvoorbeeld het omkeren van wiskundige oplossingen om verborgen variabelen te herstellen), waardoor de toepasbaarheid wordt verbreed naar niet-inverteerbare taken. De kwaliteit van deze reconstructie dient als een zelfgesuperviseerde beloning om de primaire taak te optimaliseren, wat synergiseert met het vermogen van LLM's om beide taken te instantiëren via een enkel model. Empirisch behaalt DuPO aanzienlijke verbeteringen over diverse taken: het verhoogt de gemiddelde vertaalkwaliteit met 2.13 COMET over 756 richtingen, verhoogt de nauwkeurigheid van wiskundig redeneren met gemiddeld 6,4 punten op drie uitdagingsbenchmarks, en verbetert de prestaties met 9,3 punten als een inferentie-tijd herrangeringssysteem (waarbij rekencapaciteit wordt ingeruild voor nauwkeurigheid). Deze resultaten positioneren DuPO als een schaalbaar, algemeen en annotatievrij paradigma voor LLM-optimalisatie.
English
We present DuPO, a dual learning-based preference optimization framework that
generates annotation-free feedback via a generalized duality. DuPO addresses
two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s
reliance on costly labels and applicability restricted to verifiable tasks, and
traditional dual learning's restriction to strictly dual task pairs (e.g.,
translation and back-translation). Specifically, DuPO decomposes a primal
task's input into known and unknown components, then constructs its dual task
to reconstruct the unknown part using the primal output and known information
(e.g., reversing math solutions to recover hidden variables), broadening
applicability to non-invertible tasks. The quality of this reconstruction
serves as a self-supervised reward to optimize the primal task, synergizing
with LLMs' ability to instantiate both tasks via a single model. Empirically,
DuPO achieves substantial gains across diverse tasks: it enhances the average
translation quality by 2.13 COMET over 756 directions, boosts the mathematical
reasoning accuracy by an average of 6.4 points on three challenge benchmarks,
and enhances performance by 9.3 points as an inference-time reranker (trading
computation for accuracy). These results position DuPO as a scalable, general,
and annotation-free paradigm for LLM optimization.