ChatPaper.aiChatPaper

MixCE: Entrenamiento de Modelos de Lenguaje Autoregresivos Mezclando Entropías Cruzadas Directas e Inversas

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies

May 26, 2023
Autores: Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg
cs.AI

Resumen

Los modelos de lenguaje autoregresivos se entrenan minimizando la entropía cruzada de la distribución del modelo Q con respecto a la distribución de datos P, es decir, minimizando la entropía cruzada directa, lo que equivale a la estimación de máxima verosimilitud (MLE). Hemos observado que los modelos entrenados de esta manera pueden "sobre-generalizar", en el sentido de que producen texto que no parece humano. Además, creemos que la entropía cruzada inversa, es decir, la entropía cruzada de P con respecto a Q, refleja mejor cómo un humano evaluaría el texto generado por un modelo. Por lo tanto, proponemos el aprendizaje con MixCE, un objetivo que combina las entropías cruzadas directa e inversa. Evaluamos modelos entrenados con este objetivo en configuraciones de datos sintéticos (donde P es conocida) y datos reales, y demostramos que los modelos resultantes generan mejor texto sin necesidad de estrategias de decodificación complejas. Nuestro código y modelos están disponibles públicamente en https://github.com/bloomberg/mixce-acl2023.
English
Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may "over-generalize", in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023
PDF20December 15, 2024