ChatPaper.aiChatPaper

SLIME: Aplicación Implícita de Margen con Verosimilitud Estabilizada para Optimización de Preferencias

SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

February 2, 2026
Autores: Maksim Afanasyev, Illarion Iov
cs.AI

Resumen

Los métodos de optimización directa de preferencias han surgido como una alternativa computacionalmente eficiente al Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para alinear Modelos de Lenguaje a Gran Escala (LLMs). Los enfoques más recientes han simplificado el proceso de alineación mediante la derivación de funciones de recompensa implícitas, pero a menudo adolecen de un desajuste crítico en el objetivo: optimizar el margen relativo entre respuestas elegidas y rechazadas no garantiza la preservación de la verosimilitud absoluta de la respuesta elegida. Esto puede conducir al "desaprendizaje", donde el modelo degrada la probabilidad de salidas de alta calidad para satisfacer las restricciones de margen, y al "colapso del formato" causado por la penalización excesiva de secuencias rechazadas. En este trabajo, presentamos SLIME (Aplicación de Margen Implícito con Verosimilitud Estabilizada), un objetivo de alineación sin referencia diseñado para desacoplar el aprendizaje de preferencias de la calidad de la generación. SLIME incorpora un objetivo triple: (1) un término de anclaje para maximizar la verosimilitud de las respuestas preferidas; (2) una penalización estabilizadora que evita que las probabilidades de los tokens rechazados colapsen a cero; y (3) un mecanismo de doble margen que combina restricciones rígidas y flexibles para un modelado preciso de los límites. Nuestros resultados demuestran que SLIME logra un rendimiento superior en comparación con los métodos de referencia más avanzados, manteniendo al mismo tiempo una mayor estabilidad en la generación.
English
Direct preference optimization methods have emerged as a computationally efficient alternative to Reinforcement Learning from Human Feedback (RLHF) for aligning Large Language Models (LLMs). Latest approaches have streamlined the alignment process by deriving implicit reward functions, yet they often suffer from a critical objective mismatch: optimizing the relative margin between chosen and rejected responses does not guarantee the preservation of the chosen response's absolute likelihood. This can lead to ``unlearning'', where the model degrades the probability of high-quality outputs to satisfy margin constraints, and ``formatting collapse'' caused by the over-penalization of rejected sequences. In this work, we introduce SLIME (Stabilized Likelihood Implicit Margin Enforcement), a reference-free alignment objective designed to decouple preference learning from generation quality. SLIME incorporates a three-pronged objective: (1) an anchoring term to maximize the likelihood of preferred responses; (2) a stabilizing penalty that prevents the probabilities of rejected tokens from collapsing to zero; and (3) a dual-margin mechanism that combines hard and soft constraints for precise boundary shaping. Our results demonstrate that SLIME achieves superior performance compared to state-of-the-art baselines while maintaining higher generation stability.
PDF272February 4, 2026