ChatPaper.aiChatPaper

DZ-TDPO: 長文脈対話における可変状態追跡のための非破壊的時間アライメント

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

December 3, 2025
著者: Yijun Liao
cs.AI

要旨

長文脈対話システムは、静的な制約によってモデルが変化するユーザー意図と確立された履歴コンテキスト間の矛盾を解決できなくなる「状態慣性(State Inertia)」に悩まされている。この問題に対処するため、我々は非破壊的アライメントフレームワークであるDZ-TDPOを提案する。これは、矛盾を意識した動的KL制約と較正された時間的注意バイアスを統合的に活用する。Multi-Session Chat(MSC)データセットを用いた実験により、DZ-TDPOがPhi-3.5で55.4%の最先端の勝率を達成し、堅牢なゼロショット汎化性能を維持することを実証した。スケーリング分析からは「容量-安定性トレードオフ」が明らかとなった:小規模モデルは履歴慣性を克服するために「アライメント税」(パープレキシティ急増)を支払うが、大規模なQwen2.5-7Bモデルはパープレキシティオーバーヘッドを無視できるレベルに抑えつつ50.8%の勝率を達成する。これは、TAIが破壊的な重み更新ではなく、精密な注意制御によって緩和可能であり、モデル規模を跨いだ一般的な能力(MMLU)を保持できることを示唆する。コードとデータは以下で公開されている:https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
PDF12December 10, 2025