MixCE: Entrenamiento de Modelos de Lenguaje Autoregresivos Mezclando Entropías Cruzadas Directas e Inversas
MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies
May 26, 2023
Autores: Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg
cs.AI
Resumen
Los modelos de lenguaje autoregresivos se entrenan minimizando la entropía cruzada de la distribución del modelo Q con respecto a la distribución de datos P, es decir, minimizando la entropía cruzada directa, lo que equivale a la estimación de máxima verosimilitud (MLE). Hemos observado que los modelos entrenados de esta manera pueden "sobre-generalizar", en el sentido de que producen texto que no parece humano. Además, creemos que la entropía cruzada inversa, es decir, la entropía cruzada de P con respecto a Q, refleja mejor cómo un humano evaluaría el texto generado por un modelo. Por lo tanto, proponemos el aprendizaje con MixCE, un objetivo que combina las entropías cruzadas directa e inversa. Evaluamos modelos entrenados con este objetivo en configuraciones de datos sintéticos (donde P es conocida) y datos reales, y demostramos que los modelos resultantes generan mejor texto sin necesidad de estrategias de decodificación complejas. Nuestro código y modelos están disponibles públicamente en https://github.com/bloomberg/mixce-acl2023.
English
Autoregressive language models are trained by minimizing the cross-entropy of
the model distribution Q relative to the data distribution P -- that is,
minimizing the forward cross-entropy, which is equivalent to maximum likelihood
estimation (MLE). We have observed that models trained in this way may
"over-generalize", in the sense that they produce non-human-like text.
Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P
relative to Q, is a better reflection of how a human would evaluate text
generated by a model. Hence, we propose learning with MixCE, an objective that
mixes the forward and reverse cross-entropies. We evaluate models trained with
this objective on synthetic data settings (where P is known) and real data, and
show that the resulting models yield better generated text without complex
decoding strategies. Our code and models are publicly available at
https://github.com/bloomberg/mixce-acl2023