DuPO: Zuverlässige Selbstverifikation von LLMs durch Duale Präferenzoptimierung
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
August 20, 2025
papers.authors: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI
papers.abstract
Wir stellen DuPO vor, ein auf dualem Lernen basierendes Präferenzoptimierungsframework, das annotierungsfreies Feedback über eine verallgemeinerte Dualität generiert. DuPO adressiert zwei zentrale Einschränkungen: die Abhängigkeit von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) von kostspieligen Labels und die Beschränkung auf verifizierbare Aufgaben sowie die Beschränkung des traditionellen dualen Lernens auf streng duale Aufgabenpaare (z. B. Übersetzung und Rückübersetzung). Konkret zerlegt DuPO die Eingabe einer primären Aufgabe in bekannte und unbekannte Komponenten und konstruiert dann ihre duale Aufgabe, um den unbekannten Teil unter Verwendung der primären Ausgabe und bekannter Informationen zu rekonstruieren (z. B. die Umkehrung mathematischer Lösungen zur Wiederherstellung versteckter Variablen), wodurch die Anwendbarkeit auf nicht invertierbare Aufgaben erweitert wird. Die Qualität dieser Rekonstruktion dient als selbstüberwachte Belohnung zur Optimierung der primären Aufgabe und ergänzt die Fähigkeit von LLMs, beide Aufgaben über ein einziges Modell zu instanziieren. Empirisch erzielt DuPO erhebliche Verbesserungen über diverse Aufgaben hinweg: Es steigert die durchschnittliche Übersetzungsqualität um 2,13 COMET über 756 Richtungen, erhöht die mathematische Argumentationsgenauigkeit um durchschnittlich 6,4 Punkte auf drei Benchmark-Herausforderungen und verbessert die Leistung um 9,3 Punkte als Reranker zur Inferenzzeit (unter Abwägung von Rechenleistung gegen Genauigkeit). Diese Ergebnisse positionieren DuPO als ein skalierbares, allgemeines und annotierungsfreies Paradigma zur Optimierung von LLMs.
English
We present DuPO, a dual learning-based preference optimization framework that
generates annotation-free feedback via a generalized duality. DuPO addresses
two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s
reliance on costly labels and applicability restricted to verifiable tasks, and
traditional dual learning's restriction to strictly dual task pairs (e.g.,
translation and back-translation). Specifically, DuPO decomposes a primal
task's input into known and unknown components, then constructs its dual task
to reconstruct the unknown part using the primal output and known information
(e.g., reversing math solutions to recover hidden variables), broadening
applicability to non-invertible tasks. The quality of this reconstruction
serves as a self-supervised reward to optimize the primal task, synergizing
with LLMs' ability to instantiate both tasks via a single model. Empirically,
DuPO achieves substantial gains across diverse tasks: it enhances the average
translation quality by 2.13 COMET over 756 directions, boosts the mathematical
reasoning accuracy by an average of 6.4 points on three challenge benchmarks,
and enhances performance by 9.3 points as an inference-time reranker (trading
computation for accuracy). These results position DuPO as a scalable, general,
and annotation-free paradigm for LLM optimization.