ChatPaper.aiChatPaper

DZ-TDPO: 장문 대화에서 가변 상태 추적을 위한 비파괴적 시간 정렬

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

December 3, 2025
저자: Yijun Liao
cs.AI

초록

장기 문맥 대화 시스템은 정적 제약으로 인해 진화하는 사용자 의도와 확립된 역사적 문맥 간 충돌을 해결하지 못하는 상태 관성(State Inertia) 문제를 겪습니다. 이를 해결하기 위해 우리는 충돌 인식 동적 KL 제약과 보정된 시간적 주의 편향을 상호 보완적으로 결합한 비파괴적 정렬 프레임워크인 DZ-TDPO를 제안합니다. Multi-Session Chat(MSC) 데이터셋 실험 결과, DZ-TDPO는 Phi-3.5 기준 55.4%의 최첨단 승률을 달성하면서도 강력한 제로샷 일반화 성능을 유지했습니다. 우리의 확장성 분석은 "용량-안정성 트레이드오프(Capacity-Stability Trade-off)"를 보여줍니다: 소규모 모델은 역사적 관성을 극복하기 위해 "정렬 부담(alignment tax)(퍼플렉서티 급증)"을 치르는 반면, 더 큰 Qwen2.5-7B 모델은 퍼플렉서티 오버헤드가 거의 없이 50.8%의 승률을 달성했습니다. 이는 TAI가 파괴적인 가중치 업데이트보다 정밀한 주의 규제를 통해 완화될 수 있음을 확인하며, 모델 규모 전반에 걸쳐 일반 능력(MMLU)을 보존합니다. 코드와 데이터는 다음에서 이용 가능합니다: https://github.com/lyj20071013/DZ-TDPO
English
Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
PDF12December 10, 2025