ChatPaper.aiChatPaper

Entrenamiento inverso para abordar la maldición de la inversión

Reverse Training to Nurse the Reversal Curse

March 20, 2024
Autores: Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presentan una falla sorprendente: cuando se entrenan con "A tiene una característica B", no generalizan a "B es una característica de A", lo que se denomina la Maldición de la Inversión. Incluso cuando se entrenan con billones de tokens, este problema persiste debido a la ley de Zipf, por lo que ocurre aunque se entrene con todo el contenido de internet. Este trabajo propone un esquema de entrenamiento alternativo, llamado entrenamiento inverso, en el que todas las palabras se utilizan dos veces, duplicando la cantidad de tokens disponibles. El LLM se entrena tanto en dirección directa como inversa invirtiendo las cadenas de entrenamiento, pero preservando (es decir, sin invertir) subcadenas específicas, como entidades. Demostramos que los modelos entrenados con datos inversos emparejados ofrecen un rendimiento superior a los modelos estándar en tareas convencionales, y que los modelos entrenados con inversión emparejada en términos de cómputo brindan un rendimiento mucho mejor en tareas de inversión, ayudando a resolver el problema de la maldición de la inversión.
English
Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.

Summary

AI-Generated Summary

PDF131December 15, 2024