ChatPaper.aiChatPaper

MixCE: Addestramento di Modelli Linguistici Autoregressivi Miscelando Entropie Incrociate Dirette e Inverse

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies

May 26, 2023
Autori: Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg
cs.AI

Abstract

I modelli linguistici autoregressivi vengono addestrati minimizzando l'entropia incrociata della distribuzione del modello Q rispetto alla distribuzione dei dati P - ovvero, minimizzando l'entropia incrociata diretta, che equivale alla stima di massima verosimiglianza (MLE). Abbiamo osservato che i modelli addestrati in questo modo possono "sovrageneralizzare", nel senso che producono testo non simile a quello umano. Inoltre, riteniamo che l'entropia incrociata inversa, cioè l'entropia incrociata di P rispetto a Q, rifletta meglio come un umano valuterebbe il testo generato da un modello. Pertanto, proponiamo un apprendimento con MixCE, un obiettivo che combina le entropie incrociate diretta e inversa. Valutiamo i modelli addestrati con questo obiettivo su contesti di dati sintetici (dove P è noto) e dati reali, e dimostriamo che i modelli risultanti producono testo generato migliore senza strategie di decodifica complesse. Il nostro codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/bloomberg/mixce-acl2023.
English
Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may "over-generalize", in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023
PDF20February 7, 2026