DZ-TDPO: Alinhamento Temporal Não Destrutivo para Rastreamento de Estados Mutáveis em Diálogo de Longo Contexto

Resumo

Os sistemas de diálogo de contexto longo sofrem de **Inércia de Estado**, onde restrições estáticas impedem que os modelos resolvam conflitos entre as intenções do utilizador em evolução e o contexto histórico estabelecido. Para resolver isto, propomos o **DZ-TDPO**, uma estrutura de alinhamento não destrutiva que sinergiza restrições dinâmicas de KL conscientes de conflitos com um viés de atenção temporal calibrado. Experiências no conjunto de dados Multi-Session Chat (MSC) demonstram que o DZ-TDPO atinge taxas de vitória de última geração (55,4% no Phi-3.5) mantendo uma generalização robusta *zero-shot*. A nossa análise de escalabilidade revela um **"Compromisso Capacidade-Estabilidade"**: enquanto modelos mais pequenos incorrem num **"imposto de alinhamento"** (aumento de perplexidade) para superar a inércia histórica, o modelo maior Qwen2.5-7B atinge uma taxa de vitória de 50,8% com uma sobrecarga de perplexidade negligenciável. Isto confirma que a Inércia de Estado pode ser aliviada através de uma regulação precisa da atenção, em vez de atualizações destrutivas de pesos, preservando capacidades gerais (MMLU) em várias escalas de modelos. Código e dados disponíveis: https://github.com/lyj20071013/DZ-TDPO

English

Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a calibrated temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (55.4% on Phi-3.5) while maintaining robust zero-shot generalization. Our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves 50.8% win rate with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO

DZ-TDPO: Alinhamento Temporal Não Destrutivo para Rastreamento de Estados Mutáveis em Diálogo de Longo Contexto

DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue

Resumo

Support