MixCE: Het trainen van autoregressieve taalmodelen door het mengen van voorwaartse en omgekeerde kruis-entropieën

Samenvatting

Autoregressieve taalmodelen worden getraind door de kruis-entropie van de modeldistributie Q ten opzichte van de datadistributie P te minimaliseren — dat wil zeggen, door de voorwaartse kruis-entropie te minimaliseren, wat equivalent is aan maximum likelihood-schatting (MLE). We hebben geobserveerd dat modellen die op deze manier zijn getraind, kunnen "overgeneraliseren", in die zin dat ze niet-mensachtige tekst produceren. Bovendien geloven we dat omgekeerde kruis-entropie, d.w.z. de kruis-entropie van P ten opzichte van Q, een betere weerspiegeling is van hoe een mens tekst die door een model is gegenereerd zou evalueren. Daarom stellen we leren met MixCE voor, een doelstelling die de voorwaartse en omgekeerde kruis-entropie combineert. We evalueren modellen die met deze doelstelling zijn getraind op synthetische gegevensinstellingen (waarbij P bekend is) en echte gegevens, en laten zien dat de resulterende modellen betere gegenereerde tekst opleveren zonder complexe decodeerstrategieën. Onze code en modellen zijn openbaar beschikbaar op https://github.com/bloomberg/mixce-acl2023.

English

Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may "over-generalize", in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023

MixCE: Het trainen van autoregressieve taalmodelen door het mengen van voorwaartse en omgekeerde kruis-entropieën

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies

Samenvatting

Support