ChatPaper.aiChatPaper

DuPO: 二重選好最適化による信頼性のあるLLM自己検証の実現

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

August 20, 2025
著者: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI

要旨

本論文では、双対学習に基づく選好最適化フレームワークであるDuPOを提案する。DuPOは、一般化された双対性を利用してアノテーションフリーのフィードバックを生成する。本フレームワークは、検証可能な報酬を用いた強化学習(RLVR)が高コストなラベルに依存し、検証可能なタスクに限定されるという課題、および従来の双対学習が厳密に双対なタスクペア(例えば翻訳と逆翻訳)に制限されるという課題を解決する。具体的には、DuPOは主タスクの入力を既知と未知の要素に分解し、その双対タスクを構築して、主タスクの出力と既知の情報を用いて未知の部分を再構築する(例えば、数学的解法を逆転させて隠れた変数を復元する)。これにより、非可逆なタスクへの適用範囲が拡大される。この再構築の品質は、主タスクを最適化するための自己教師あり報酬として機能し、単一のモデルで両タスクをインスタンス化する大規模言語モデル(LLM)の能力と相乗効果を発揮する。実験的には、DuPOは多様なタスクにおいて顕著な改善を達成している:756の言語方向において翻訳品質を平均2.13 COMET向上させ、3つの数学的推論ベンチマークで平均6.4ポイントの精度向上を実現し、推論時のリランカーとして計算量と精度をトレードオフしながら9.3ポイントの性能向上をもたらした。これらの結果から、DuPOはスケーラブルで汎用的かつアノテーションフリーなLLM最適化のパラダイムとして位置づけられる。
English
We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.
PDF782August 21, 2025