ChatPaper.aiChatPaper

DZ-TDPO: Zerstörungsfreie temporale Ausrichtung zur Verfolgung veränderlicher Zustände in Dialogen mit langem Kontext

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

December 3, 2025
papers.authors: Yijun Liao
cs.AI

papers.abstract

Langzeit-Dialogsysteme leiden unter Zustandsträgheit, bei der statische Beschränkungen verhindern, dass Modelle Konflikte zwischen sich entwickelnden Benutzerabsichten und etabliertem historischem Kontext auflösen. Um dies zu beheben, schlagen wir DZ-TDPO vor, ein zerstörungsfreies Alignment-Framework, das konfliktbewusste dynamische KL-Constraints mit einer kalibrierten temporalen Aufmerksamkeitsverzerrung synergistisch kombiniert. Experimente auf dem Multi-Session Chat (MSC)-Datensatz zeigen, dass DZ-TDPO state-of-the-art Win Rates erreicht (55,4 % bei Phi-3.5) und dabei eine robuste Zero-Shot-Generalisation beibehält. Unsere Skalierungsanalyse offenbart einen "Kapazitäts-Stabilitäts-Kompromiss": Während kleinere Modelle eine "Alignment-Steuer" (Perplexity-Anstieg) zahlen, um historische Trägheit zu überwinden, erreicht das größere Qwen2.5-7B-Modell eine Win Rate von 50,8 % mit vernachlässigbarem Perplexity-Overhead. Dies bestätigt, dass TAI durch präzise Aufmerksamkeitsregulierung anstelle destruktiver Gewichtsaktualisierungen gemildert werden kann, wobei allgemeine Fähigkeiten (MMLU) über Modellgrößen hinweg erhalten bleiben. Code und Daten sind verfügbar: https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
PDF12December 10, 2025