ChatPaper.aiChatPaper

DuPO: Habilitando Verificação Autônoma Confiável em LLMs por meio de Otimização de Preferências Duais

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

August 20, 2025
Autores: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang
cs.AI

Resumo

Apresentamos o DuPO, uma estrutura de otimização de preferências baseada em aprendizado dual que gera feedback sem anotações por meio de uma dualidade generalizada. O DuPO aborda duas limitações principais: a dependência do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) em rótulos custosos e sua aplicabilidade restrita a tarefas verificáveis, e a restrição do aprendizado dual tradicional a pares de tarefas estritamente duais (por exemplo, tradução e retro-tradução). Especificamente, o DuPO decompõe a entrada de uma tarefa primária em componentes conhecidos e desconhecidos, e então constrói sua tarefa dual para reconstruir a parte desconhecida usando a saída primária e informações conhecidas (por exemplo, reverter soluções matemáticas para recuperar variáveis ocultas), ampliando a aplicabilidade para tarefas não invertíveis. A qualidade dessa reconstrução serve como uma recompensa auto-supervisionada para otimizar a tarefa primária, sinergizando com a capacidade dos LLMs de instanciar ambas as tarefas por meio de um único modelo. Empiricamente, o DuPO alcança ganhos substanciais em diversas tarefas: ele melhora a qualidade média de tradução em 2,13 COMET em 756 direções, aumenta a precisão do raciocínio matemático em uma média de 6,4 pontos em três benchmarks desafiadores e melhora o desempenho em 9,3 pontos como um reranker em tempo de inferência (trocando computação por precisão). Esses resultados posicionam o DuPO como um paradigma escalável, geral e sem anotações para otimização de LLMs.
English
We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.
PDF812August 21, 2025