ChatPaper.aiChatPaper

DZ-TDPO : Alignement temporel non destructif pour le suivi d'état mutable dans les dialogues à contexte long

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

December 3, 2025
papers.authors: Yijun Liao
cs.AI

papers.abstract

Les systèmes de dialogue à contexte long souffrent d’inertie d’état, où des contraintes statiques empêchent les modèles de résoudre les conflits entre les intentions évolutives de l’utilisateur et le contexte historique établi. Pour y remédier, nous proposons DZ-TDPO, un cadre d’alignement non destructif qui combine des contraintes KL dynamiques sensibles aux conflits avec un biais d’attention temporelle calibré. Les expériences sur le jeu de données Multi-Session Chat (MSC) montrent que DZ-TDPO atteint des taux de victoire à la pointe (55,4 % sur Phi-3.5) tout en maintenant une généralisation robuste en zero-shot. Notre analyse d’échelle révèle un « compromis capacité-stabilité » : si les petits modèles subissent une « taxe d’alignement » (augmentation de la perplexité) pour surmonter l’inertie historique, le modèle plus large Qwen2.5-7B atteint un taux de victoire de 50,8 % avec une surcharge de perplexité négligeable. Cela confirme que l’inertie d’attention temporelle peut être atténuée par une régulation précise de l’attention plutôt que par des mises à jour destructrices des poids, préservant ainsi les capacités générales (MMLU) quelle que soit l’échelle du modèle. Le code et les données sont disponibles à l’adresse : https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
PDF12December 10, 2025