Lineare Korrelation in der kompositorischen Generalisierung und Halluzination von LM.

papers.abstract

Die Verallgemeinerung von Sprachmodellen (LMs) wird in aktiven Debatten diskutiert, die ihr Potenzial für allgemeine Intelligenz mit ihren Schwierigkeiten bei der grundlegenden Wissenszusammensetzung (z. B. Reverse/Transition Curse) gegenüberstellen. Diese Arbeit deckt das Phänomen linearer Korrelationen in LMs während der Wissenszusammensetzung auf. Zur Erklärung existiert eine lineare Transformation zwischen bestimmten verwandten Wissensinhalten, die die Vorhersage-Logits des nächsten Tokens von einem Prompt zum anderen abbildet, z. B. "X lebt in der Stadt" ⟶ "X lebt im Land" für jedes gegebene X. Dies spiegelt die Linearität in der menschlichen Wissenszusammensetzung wider, wie z. B. Paris ⟶ Frankreich. Unsere Ergebnisse deuten darauf hin, dass die lineare Transformation gegenüber groß angelegtem Feintuning widerstandsfähig ist, aktualisiertes Wissen verallgemeinert, wenn es mit realen Beziehungen übereinstimmt, aber Halluzinationen verursacht, wenn es abweicht. Empirische Ergebnisse legen nahe, dass lineare Korrelationen als potenzieller Identifikator für die Verallgemeinerung von LMs dienen können. Schließlich zeigen wir, dass solche linearen Korrelationen mit einem einzigen Feedforward-Netzwerk und vorab trainierten Vokabularrepräsentationen erlernt werden können, was darauf hindeutet, dass die Verallgemeinerung von LMs stark von Letzteren abhängt.

English

The generalization of language models (LMs) is undergoing active debates, contrasting their potential for general intelligence with their struggles with basic knowledge composition (e.g., reverse/transition curse). This paper uncovers the phenomenon of linear correlations in LMs during knowledge composition. For explanation, there exists a linear transformation between certain related knowledge that maps the next token prediction logits from one prompt to another, e.g., "X lives in the city of" rightarrow "X lives in the country of" for every given X. This mirrors the linearity in human knowledge composition, such as Paris rightarrow France. Our findings indicate that the linear transformation is resilient to large-scale fine-tuning, generalizing updated knowledge when aligned with real-world relationships, but causing hallucinations when it deviates. Empirical results suggest that linear correlation can serve as a potential identifier of LM's generalization. Finally, we show such linear correlations can be learned with a single feedforward network and pre-trained vocabulary representations, indicating LM generalization heavily relies on the latter.

Lineare Korrelation in der kompositorischen Generalisierung und Halluzination von LM.

Linear Correlation in LM's Compositional Generalization and Hallucination

papers.abstract

Support