ChatPaper.aiChatPaper

Noyaux DPO : Un paradigme pour l'optimisation directe des préférences, conscient de la sémantique, amélioré par des noyaux et riche en divergences.

DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

January 5, 2025
Auteurs: Amitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha
cs.AI

Résumé

La montée rapide des grands modèles de langage (GML) a débloqué de nombreuses applications, mais souligne également le défi de les aligner avec des valeurs et des préférences diverses. L'Optimisation Directe des Préférences (ODP) est essentielle pour l'alignement, mais elle est limitée par des divergences fixes et des transformations de caractéristiques limitées. Nous proposons les Noyaux ODP, qui intègrent des méthodes de noyau pour résoudre ces problèmes à travers quatre contributions clés : (i) des Représentations Noyautées avec des noyaux polynomiaux, RBF, Mahalanobis et spectraux pour des transformations plus riches, ainsi qu'une perte hybride combinant des objectifs basés sur l'incorporation et des probabilités ; (ii) des Alternatives de Divergence (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein et f-divergences) pour une plus grande stabilité ; (iii) des Métriques de Sélection basées sur les Données qui choisissent automatiquement le meilleur couple noyau-divergence ; et (iv) un Mélange Hiérarchique de Noyaux pour une précision locale et une modélisation globale. Les évaluations sur 12 ensembles de données démontrent des performances de pointe en matière de factualité, de sécurité, de raisonnement et de suivi des instructions. Ancré dans l'Auto-Régularisation à Queues Lourdes, les Noyaux ODP maintiennent une généralisation robuste pour les GML, offrant ainsi une ressource complète pour de futures recherches en alignement.
English
The rapid rise of large language models (LLMs) has unlocked many applications but also underscores the challenge of aligning them with diverse values and preferences. Direct Preference Optimization (DPO) is central to alignment but constrained by fixed divergences and limited feature transformations. We propose DPO-Kernels, which integrates kernel methods to address these issues through four key contributions: (i) Kernelized Representations with polynomial, RBF, Mahalanobis, and spectral kernels for richer transformations, plus a hybrid loss combining embedding-based and probability-based objectives; (ii) Divergence Alternatives (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, and f-divergences) for greater stability; (iii) Data-Driven Selection metrics that automatically choose the best kernel-divergence pair; and (iv) a Hierarchical Mixture of Kernels for both local precision and global modeling. Evaluations on 12 datasets demonstrate state-of-the-art performance in factuality, safety, reasoning, and instruction following. Grounded in Heavy-Tailed Self-Regularization, DPO-Kernels maintains robust generalization for LLMs, offering a comprehensive resource for further alignment research.

Summary

AI-Generated Summary

PDF112January 9, 2025