DuPO: Обеспечение надежной самопроверки языковых моделей через двойную оптимизацию предпочтений
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
August 20, 2025
Авторы: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI
Аннотация
Мы представляем DuPO — фреймворк оптимизации предпочтений на основе двойственного обучения, который генерирует обратную связь без аннотаций с использованием обобщённой двойственности. DuPO устраняет два ключевых ограничения: зависимость подхода "Обучение с подкреплением с верифицируемыми наградами" (RLVR) от дорогостоящих меток и его применимость только к верифицируемым задачам, а также ограничение традиционного двойственного обучения строго парными задачами (например, перевод и обратный перевод). В частности, DuPO разлагает входные данные основной задачи на известные и неизвестные компоненты, затем строит двойственную задачу для восстановления неизвестной части с использованием выхода основной задачи и известной информации (например, обратное решение математических задач для восстановления скрытых переменных), расширяя применимость к необратимым задачам. Качество этого восстановления служит самоконтролируемой наградой для оптимизации основной задачи, что синергетически сочетается с возможностью языковых моделей (LLM) реализовывать обе задачи через единую модель. Эмпирически DuPO демонстрирует значительные улучшения в различных задачах: повышает среднее качество перевода на 2.13 балла по метрике COMET в 756 направлениях, увеличивает точность математического рассуждения в среднем на 6.4 балла на трёх сложных бенчмарках и улучшает производительность на 9.3 балла в качестве ранжировщика на этапе вывода (обменивая вычисления на точность). Эти результаты позиционируют DuPO как масштабируемую, универсальную и не требующую аннотаций парадигму для оптимизации LLM.
English
We present DuPO, a dual learning-based preference optimization framework that
generates annotation-free feedback via a generalized duality. DuPO addresses
two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s
reliance on costly labels and applicability restricted to verifiable tasks, and
traditional dual learning's restriction to strictly dual task pairs (e.g.,
translation and back-translation). Specifically, DuPO decomposes a primal
task's input into known and unknown components, then constructs its dual task
to reconstruct the unknown part using the primal output and known information
(e.g., reversing math solutions to recover hidden variables), broadening
applicability to non-invertible tasks. The quality of this reconstruction
serves as a self-supervised reward to optimize the primal task, synergizing
with LLMs' ability to instantiate both tasks via a single model. Empirically,
DuPO achieves substantial gains across diverse tasks: it enhances the average
translation quality by 2.13 COMET over 756 directions, boosts the mathematical
reasoning accuracy by an average of 6.4 points on three challenge benchmarks,
and enhances performance by 9.3 points as an inference-time reranker (trading
computation for accuracy). These results position DuPO as a scalable, general,
and annotation-free paradigm for LLM optimization.