ChatPaper.aiChatPaper

Correlação Linear na Generalização Composicional e Alucinação em LM.

Linear Correlation in LM's Compositional Generalization and Hallucination

February 6, 2025
Autores: Letian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang
cs.AI

Resumo

A generalização de modelos de linguagem (LMs) está passando por debates ativos, contrastando seu potencial para inteligência geral com suas dificuldades na composição de conhecimento básico (por exemplo, maldição reversa/transição). Este artigo revela o fenômeno das correlações lineares em LMs durante a composição de conhecimento. Para explicar, existe uma transformação linear entre certos conhecimentos relacionados que mapeia as previsões de logitos de próxima token de uma prompt para outra, por exemplo, "X vive na cidade de" para "X vive no país de" para cada X dado. Isso reflete a linearidade na composição do conhecimento humano, como Paris para França. Nossas descobertas indicam que a transformação linear é resiliente a ajustes em larga escala, generalizando conhecimento atualizado quando alinhado com relacionamentos do mundo real, mas causando alucinações quando se desvia. Resultados empíricos sugerem que a correlação linear pode servir como um identificador potencial de generalização de LM. Por fim, mostramos que tais correlações lineares podem ser aprendidas com uma única rede feedforward e representações de vocabulário pré-treinadas, indicando que a generalização de LM depende fortemente deste último.
English
The generalization of language models (LMs) is undergoing active debates, contrasting their potential for general intelligence with their struggles with basic knowledge composition (e.g., reverse/transition curse). This paper uncovers the phenomenon of linear correlations in LMs during knowledge composition. For explanation, there exists a linear transformation between certain related knowledge that maps the next token prediction logits from one prompt to another, e.g., "X lives in the city of" rightarrow "X lives in the country of" for every given X. This mirrors the linearity in human knowledge composition, such as Paris rightarrow France. Our findings indicate that the linear transformation is resilient to large-scale fine-tuning, generalizing updated knowledge when aligned with real-world relationships, but causing hallucinations when it deviates. Empirical results suggest that linear correlation can serve as a potential identifier of LM's generalization. Finally, we show such linear correlations can be learned with a single feedforward network and pre-trained vocabulary representations, indicating LM generalization heavily relies on the latter.

Summary

AI-Generated Summary

PDF113February 10, 2025