SLIME: Imposizione Implicita del Margine con Verosimiglianza Stabilizzata per l'Ottimizzazione delle Preferenze

Abstract

I metodi di ottimizzazione diretta delle preferenze sono emersi come un'alternativa computazionalmente efficiente al Reinforcement Learning from Human Feedback (RLHF) per l'allineamento dei Large Language Model (LLM). Gli approcci più recenti hanno semplificato il processo di allineamento derivando funzioni di ricompensa implicite, ma soffrono spesso di un fondamentale disallineamento degli obiettivi: ottimizzare il margine relativo tra risposte scelte e rifiutate non garantisce la preservazione della likelihood assoluta della risposta scelta. Ciò può portare a un "disapprendimento" (unlearning), in cui il modello degrada la probabilità di output di alta qualità per soddisfare i vincoli di margine, e a un "collasso della formattazione" (formatting collapse) causato dalla penalizzazione eccessiva delle sequenze rifiutate. In questo lavoro introduciamo SLIME (Stabilized Likelihood Implicit Margin Enforcement), un obiettivo di allineamento senza riferimento progettato per disaccoppiare l'apprendimento delle preferenze dalla qualità generativa. SLIME incorpora un obiettivo tripartito: (1) un termine di ancoraggio per massimizzare la likelihood delle risposte preferite; (2) una penalità stabilizzante che impedisce il collasso a zero delle probabilità dei token rifiutati; e (3) un meccanismo a doppio margine che combina vincoli rigidi e soft per una modellazione precisa dei confini. I nostri risultati dimostrano che SLIME raggiunge prestazioni superiori rispetto ai baseline state-of-the-art mantenendo al contempo una maggiore stabilità generativa.

English

Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to ``unlearning'', where the model degrades the probability of high-quality outputs to satisfy margin constraints, and ``formatting collapse'' caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.

SLIME: Imposizione Implicita del Margine con Verosimiglianza Stabilizzata per l'Ottimizzazione delle Preferenze

SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

Abstract

Support