DuPO : Permettre une auto-vérification fiable des LLM via l'optimisation de préférences duales
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
August 20, 2025
papers.authors: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI
papers.abstract
Nous présentons DuPO, un cadre d'optimisation des préférences basé sur l'apprentissage dual qui génère des retours d'annotation via une dualité généralisée. DuPO aborde deux limitations clés : la dépendance de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) à des étiquettes coûteuses et son applicabilité restreinte aux tâches vérifiables, ainsi que la restriction de l'apprentissage dual traditionnel à des paires de tâches strictement duales (par exemple, traduction et rétro-traduction). Plus précisément, DuPO décompose l'entrée d'une tâche primaire en composantes connues et inconnues, puis construit sa tâche duale pour reconstruire la partie inconnue en utilisant la sortie primaire et les informations connues (par exemple, inverser des solutions mathématiques pour retrouver des variables cachées), élargissant ainsi l'applicabilité à des tâches non inversibles. La qualité de cette reconstruction sert de récompense auto-supervisée pour optimiser la tâche primaire, en synergie avec la capacité des modèles de langage (LLM) à instancier les deux tâches via un seul modèle. Empiriquement, DuPO réalise des gains substantiels sur diverses tâches : il améliore la qualité moyenne de traduction de 2,13 COMET sur 756 directions, augmente la précision du raisonnement mathématique de 6,4 points en moyenne sur trois benchmarks de défis, et améliore les performances de 9,3 points en tant que reclassificateur en temps d'inférence (échangeant du calcul contre de la précision). Ces résultats positionnent DuPO comme un paradigme évolutif, général et sans annotation pour l'optimisation des LLM.
English
We present DuPO, a dual learning-based preference optimization framework that
generates annotation-free feedback via a generalized duality. DuPO addresses
two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s
reliance on costly labels and applicability restricted to verifiable tasks, and
traditional dual learning's restriction to strictly dual task pairs (e.g.,
translation and back-translation). Specifically, DuPO decomposes a primal
task's input into known and unknown components, then constructs its dual task
to reconstruct the unknown part using the primal output and known information
(e.g., reversing math solutions to recover hidden variables), broadening
applicability to non-invertible tasks. The quality of this reconstruction
serves as a self-supervised reward to optimize the primal task, synergizing
with LLMs' ability to instantiate both tasks via a single model. Empirically,
DuPO achieves substantial gains across diverse tasks: it enhances the average
translation quality by 2.13 COMET over 756 directions, boosts the mathematical
reasoning accuracy by an average of 6.4 points on three challenge benchmarks,
and enhances performance by 9.3 points as an inference-time reranker (trading
computation for accuracy). These results position DuPO as a scalable, general,
and annotation-free paradigm for LLM optimization.