ChatPaper.aiChatPaper

DPO-Kerne: Ein semantisch bewusstes, Kernel-optimiertes und divergenzreiches Paradigma für die direkte Präferenzoptimierung.

DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

January 5, 2025
Autoren: Amitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha
cs.AI

Zusammenfassung

Der rasante Aufstieg großer Sprachmodelle (LLMs) hat viele Anwendungen ermöglicht, aber auch die Herausforderung betont, sie mit vielfältigen Werten und Präferenzen in Einklang zu bringen. Die direkte Präferenzoptimierung (DPO) ist zentral für die Ausrichtung, jedoch durch feste Divergenzen und begrenzte Merkmalstransformationen eingeschränkt. Wir schlagen DPO-Kernel vor, der Kernelmethoden integriert, um diese Probleme durch vier Schlüsselbeiträge anzugehen: (i) Kernelisierte Darstellungen mit polynomialen, RBF-, Mahalanobis- und spektralen Kernen für reichhaltigere Transformationen, sowie ein Hybridverlust, der einbettungsbasierte und wahrscheinlichkeitsbasierte Ziele kombiniert; (ii) Divergenzalternativen (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein und f-Divergenzen) für eine größere Stabilität; (iii) Datengetriebene Auswahlmetriken, die automatisch das beste Kernel-Divergenz-Paar wählen; und (iv) eine Hierarchische Mischung von Kernen für sowohl lokale Präzision als auch globales Modellieren. Evaluationen an 12 Datensätzen zeigen eine erstklassige Leistung in Sachen Faktentreue, Sicherheit, Schlussfolgerung und Anweisungsbefolgung. Verankert in der Heavy-Tailed Self-Regularization, gewährleistet DPO-Kernel eine robuste Verallgemeinerung für LLMs und bietet eine umfassende Ressource für weitere Ausrichtungsforschung.
English
The rapid rise of large language models (LLMs) has unlocked many applications but also underscores the challenge of aligning them with diverse values and preferences. Direct Preference Optimization (DPO) is central to alignment but constrained by fixed divergences and limited feature transformations. We propose DPO-Kernels, which integrates kernel methods to address these issues through four key contributions: (i) Kernelized Representations with polynomial, RBF, Mahalanobis, and spectral kernels for richer transformations, plus a hybrid loss combining embedding-based and probability-based objectives; (ii) Divergence Alternatives (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, and f-divergences) for greater stability; (iii) Data-Driven Selection metrics that automatically choose the best kernel-divergence pair; and (iv) a Hierarchical Mixture of Kernels for both local precision and global modeling. Evaluations on 12 datasets demonstrate state-of-the-art performance in factuality, safety, reasoning, and instruction following. Grounded in Heavy-Tailed Self-Regularization, DPO-Kernels maintains robust generalization for LLMs, offering a comprehensive resource for further alignment research.

Summary

AI-Generated Summary

PDF112January 9, 2025