DZ-TDPO: Alineación Temporal No Destructiva para el Seguimiento de Estados Mutables en Diálogos de Contexto Largo
DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue
December 3, 2025
Autores: Yijun Liao
cs.AI
Resumen
Los sistemas de diálogo de contexto largo sufren de Inercia de Estado, donde restricciones estáticas impiden que los modelos resuelvan conflictos entre las intenciones evolutivas del usuario y el contexto histórico establecido. Para abordar esto, proponemos DZ-TDPO, un marco de alineación no destructivo que sinergiza restricciones dinámicas de KL conscientes de conflictos con un sesgo de atención temporal calibrado. Los experimentos en el conjunto de datos Multi-Session Chat (MSC) demuestran que DZ-TDPO logra tasas de victoria state-of-the-art (55.4% en Phi-3.5) manteniendo una generalización robusta zero-shot. Nuestro análisis de escalado revela un "Intercambio Capacidad-Estabilidad": mientras los modelos más pequeños incurren en un "impuesto de alineación" (aumento de perplexity) para superar la inercia histórica, el modelo más grande Qwen2.5-7B alcanza un 50.8% de tasa de victoria con sobrecarga de perplexity negligible. Esto confirma que la Inercia de Estado puede aliviarse mediante una regulación precisa de la atención en lugar de actualizaciones destructivas de pesos, preservando capacidades generales (MMLU) en todas las escalas del modelo. Código y datos disponibles: https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO