Correlación Lineal en la Generalización Composicional y Alucinación de LM

Resumen

La generalización de los modelos de lenguaje (LMs) está siendo objeto de debates activos, contrastando su potencial para la inteligencia general con sus dificultades en la composición de conocimientos básicos (por ejemplo, la maldición inversa/transición). Este artículo desvela el fenómeno de las correlaciones lineales en los LMs durante la composición de conocimientos. Para explicarlo, existe una transformación lineal entre ciertos conocimientos relacionados que mapea las puntuaciones de predicción del siguiente token de una indicación a otra, por ejemplo, "X vive en la ciudad de" -> "X vive en el país de" para cada X dado. Esto refleja la linealidad en la composición del conocimiento humano, como París -> Francia. Nuestros hallazgos indican que la transformación lineal es resistente a la sintonización fina a gran escala, generalizando conocimientos actualizados cuando se alinean con relaciones del mundo real, pero causando alucinaciones cuando se desvía. Los resultados empíricos sugieren que la correlación lineal puede servir como un identificador potencial de la generalización de los LM. Finalmente, demostramos que tales correlaciones lineales pueden ser aprendidas con una única red feedforward y representaciones de vocabulario pre-entrenadas, indicando que la generalización de los LM depende en gran medida de este último.

English

The generalization of language models (LMs) is undergoing active debates, contrasting their potential for general intelligence with their struggles with basic knowledge composition (e.g., reverse/transition curse). This paper uncovers the phenomenon of linear correlations in LMs during knowledge composition. For explanation, there exists a linear transformation between certain related knowledge that maps the next token prediction logits from one prompt to another, e.g., "X lives in the city of" rightarrow "X lives in the country of" for every given X. This mirrors the linearity in human knowledge composition, such as Paris rightarrow France. Our findings indicate that the linear transformation is resilient to large-scale fine-tuning, generalizing updated knowledge when aligned with real-world relationships, but causing hallucinations when it deviates. Empirical results suggest that linear correlation can serve as a potential identifier of LM's generalization. Finally, we show such linear correlations can be learned with a single feedforward network and pre-trained vocabulary representations, indicating LM generalization heavily relies on the latter.

Correlación Lineal en la Generalización Composicional y Alucinación de LM

Linear Correlation in LM's Compositional Generalization and Hallucination

Resumen

Support