ChatPaper.aiChatPaper

DZ-TDPO: Niet-destructieve temporele uitlijning voor het volgen van veranderlijke toestanden in dialogen met lange context

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

December 3, 2025
Auteurs: Yijun Liao
cs.AI

Samenvatting

Langetermijndialoogsystemen lijden onder Toestandsinertie, waarbij statische beperkingen modellen verhinderen om conflicten tussen evoluerende gebruikersintenties en gevestigde historische context op te lossen. Om dit aan te pakken, stellen we DZ-TDPO voor, een niet-destructief afstemmingsraamwerk dat conflictbewuste dynamische KL-beperkingen synergiseert met een gekalibreerde temporele aandachtsprioriteit. Experimenten op de Multi-Session Chat (MSC)-dataset tonen aan dat DZ-TDPO state-of-the-art winstpercentages behaalt (55,4% op Phi-3.5) terwijl het robuuste zero-shot generalisatie behoudt. Onze schaalanalyse onthult een "Capaciteit-Stabiliteit Afruil": terwijl kleinere modellen een "afstemmingsbelasting" (perplexiteitstoename) oplopen om historische inertie te overwinnen, behaalt het grotere Qwen2.5-7B-model een winstpercentage van 50,8% met verwaarloosbare perplexiteitsoverhead. Dit bevestigt dat TAI verlicht kan worden via precieze aandachtregulatie in plaats van destructieve gewichtsupdates, waarbij algemene capaciteiten (MMLU) over modelschalen behouden blijven. Code en data zijn beschikbaar: https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
PDF12December 10, 2025