ChatPaper.aiChatPaper

Линейная корреляция в композиционной обобщенности и галлюцинациях в модели LM.

Linear Correlation in LM's Compositional Generalization and Hallucination

February 6, 2025
Авторы: Letian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang
cs.AI

Аннотация

Обобщение языковых моделей (LMs) вызывает активные дискуссии, сопоставляя их потенциал для общего интеллекта с трудностями в основах композиции знаний (например, проклятие обратного/переходного). В данной статье раскрывается явление линейных корреляций в LMs во время композиции знаний. Для объяснения существует линейное преобразование между определенными связанными знаниями, которое отображает логиты предсказания следующего токена с одного запроса на другой, например, "X живет в городе" -> "X живет в стране" для каждого данного X. Это отражает линейность в композиции человеческих знаний, например, Париж -> Франция. Наши результаты показывают, что линейное преобразование устойчиво к масштабированию, обобщая обновленные знания при соответствии реальным отношениям, но вызывает галлюцинации при отклонении. Эмпирические результаты предполагают, что линейная корреляция может служить потенциальным идентификатором обобщения LM. Наконец, мы показываем, что такие линейные корреляции могут быть изучены с помощью одной прямой нейронной сети и предварительно обученных представлений словаря, что указывает на то, что обобщение LM сильно зависит от последних.
English
The generalization of language models (LMs) is undergoing active debates, contrasting their potential for general intelligence with their struggles with basic knowledge composition (e.g., reverse/transition curse). This paper uncovers the phenomenon of linear correlations in LMs during knowledge composition. For explanation, there exists a linear transformation between certain related knowledge that maps the next token prediction logits from one prompt to another, e.g., "X lives in the city of" rightarrow "X lives in the country of" for every given X. This mirrors the linearity in human knowledge composition, such as Paris rightarrow France. Our findings indicate that the linear transformation is resilient to large-scale fine-tuning, generalizing updated knowledge when aligned with real-world relationships, but causing hallucinations when it deviates. Empirical results suggest that linear correlation can serve as a potential identifier of LM's generalization. Finally, we show such linear correlations can be learned with a single feedforward network and pre-trained vocabulary representations, indicating LM generalization heavily relies on the latter.

Summary

AI-Generated Summary

PDF113February 10, 2025