MixCE: Het trainen van autoregressieve taalmodelen door het mengen van voorwaartse en omgekeerde kruis-entropieën
MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies
May 26, 2023
Auteurs: Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg
cs.AI
Samenvatting
Autoregressieve taalmodelen worden getraind door de kruis-entropie van de modeldistributie Q ten opzichte van de datadistributie P te minimaliseren — dat wil zeggen, door de voorwaartse kruis-entropie te minimaliseren, wat equivalent is aan maximum likelihood-schatting (MLE). We hebben geobserveerd dat modellen die op deze manier zijn getraind, kunnen "overgeneraliseren", in die zin dat ze niet-mensachtige tekst produceren. Bovendien geloven we dat omgekeerde kruis-entropie, d.w.z. de kruis-entropie van P ten opzichte van Q, een betere weerspiegeling is van hoe een mens tekst die door een model is gegenereerd zou evalueren. Daarom stellen we leren met MixCE voor, een doelstelling die de voorwaartse en omgekeerde kruis-entropie combineert. We evalueren modellen die met deze doelstelling zijn getraind op synthetische gegevensinstellingen (waarbij P bekend is) en echte gegevens, en laten zien dat de resulterende modellen betere gegenereerde tekst opleveren zonder complexe decodeerstrategieën. Onze code en modellen zijn openbaar beschikbaar op https://github.com/bloomberg/mixce-acl2023.
English
Autoregressive language models are trained by minimizing the cross-entropy of
the model distribution Q relative to the data distribution P -- that is,
minimizing the forward cross-entropy, which is equivalent to maximum likelihood
estimation (MLE). We have observed that models trained in this way may
"over-generalize", in the sense that they produce non-human-like text.
Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P
relative to Q, is a better reflection of how a human would evaluate text
generated by a model. Hence, we propose learning with MixCE, an objective that
mixes the forward and reverse cross-entropies. We evaluate models trained with
this objective on synthetic data settings (where P is known) and real data, and
show that the resulting models yield better generated text without complex
decoding strategies. Our code and models are publicly available at
https://github.com/bloomberg/mixce-acl2023