Jenseits der Oberfläche: Untersuchung von LLaMA über Skalen und Schichten hinweg
Beyond Surface: Probing LLaMA Across Scales and Layers
December 7, 2023
Autoren: Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li
cs.AI
Zusammenfassung
Dieses Papier präsentiert eine detaillierte Analyse von Large Language Models (LLMs), mit einem Fokus auf LLaMA, einem prominenten Open-Source-Grundmodell in der natürlichen Sprachverarbeitung. Anstatt LLaMA über seine generativen Ausgaben zu bewerten, entwerfen wir Multiple-Choice-Aufgaben, um sein intrinsisches Verständnis in höherwertigen Aufgaben wie Schlussfolgerung und Berechnung zu untersuchen. Wir analysieren das Modell horizontal, indem wir verschiedene Größen vergleichen, und vertikal, indem wir verschiedene Schichten bewerten. Wir enthüllen mehrere wichtige und ungewöhnliche Erkenntnisse basierend auf den entworfenen Untersuchungsaufgaben: (1) Horizontal führt eine Vergrößerung der Modellgrößen fast nie automatisch zu zusätzlichem Wissen oder Rechenfähigkeiten. Stattdessen kann sie die Fähigkeiten zur Schlussfolgerung verbessern, insbesondere bei der Lösung mathematischer Probleme, und hilft, Halluzinationen zu reduzieren, jedoch nur oberhalb bestimmter Größenschwellen; (2) In der vertikalen Analyse mangelt es den unteren Schichten von LLaMA an substanziellem arithmetischem und faktischem Wissen, wobei sie logisches Denken, mehrsprachige und erkennende Fähigkeiten zeigen, während die oberen Schichten die meiste Rechenleistung und reales Wissen beherbergen.
English
This paper presents an in-depth analysis of Large Language Models (LLMs),
focusing on LLaMA, a prominent open-source foundational model in natural
language processing. Instead of assessing LLaMA through its generative output,
we design multiple-choice tasks to probe its intrinsic understanding in
high-order tasks such as reasoning and computation. We examine the model
horizontally, comparing different sizes, and vertically, assessing different
layers. We unveil several key and uncommon findings based on the designed
probing tasks: (1) Horizontally, enlarging model sizes almost could not
automatically impart additional knowledge or computational prowess. Instead, it
can enhance reasoning abilities, especially in math problem solving, and helps
reduce hallucinations, but only beyond certain size thresholds; (2) In vertical
analysis, the lower layers of LLaMA lack substantial arithmetic and factual
knowledge, showcasing logical thinking, multilingual and recognitive abilities,
with top layers housing most computational power and real-world knowledge.