Oltre la Superficie: Analisi di LLaMA Attraverso Scale e Livelli
Beyond Surface: Probing LLaMA Across Scales and Layers
December 7, 2023
Autori: Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li
cs.AI
Abstract
Questo articolo presenta un'analisi approfondita dei Large Language Models (LLM), concentrandosi su LLaMA, un noto modello open-source di base nel campo dell'elaborazione del linguaggio naturale. Invece di valutare LLaMA attraverso il suo output generativo, progettiamo task a scelta multipla per sondare la sua comprensione intrinseca in compiti di alto livello come il ragionamento e il calcolo. Esaminiamo il modello sia orizzontalmente, confrontando diverse dimensioni, sia verticalmente, valutando i diversi strati. Riveliamo diversi risultati chiave e inusuali basati sui task di sondaggio progettati: (1) Orizzontalmente, l'aumento delle dimensioni del modello quasi non conferisce automaticamente conoscenze aggiuntive o abilità computazionali. Piuttosto, può migliorare le capacità di ragionamento, specialmente nella risoluzione di problemi matematici, e aiuta a ridurre le allucinazioni, ma solo oltre determinate soglie di dimensione; (2) Nell'analisi verticale, gli strati inferiori di LLaMA mancano di una sostanziale conoscenza aritmetica e fattuale, mostrando invece capacità di pensiero logico, multilingue e ricognitive, mentre gli strati superiori ospitano la maggior parte della potenza computazionale e della conoscenza del mondo reale.
English
This paper presents an in-depth analysis of Large Language Models (LLMs),
focusing on LLaMA, a prominent open-source foundational model in natural
language processing. Instead of assessing LLaMA through its generative output,
we design multiple-choice tasks to probe its intrinsic understanding in
high-order tasks such as reasoning and computation. We examine the model
horizontally, comparing different sizes, and vertically, assessing different
layers. We unveil several key and uncommon findings based on the designed
probing tasks: (1) Horizontally, enlarging model sizes almost could not
automatically impart additional knowledge or computational prowess. Instead, it
can enhance reasoning abilities, especially in math problem solving, and helps
reduce hallucinations, but only beyond certain size thresholds; (2) In vertical
analysis, the lower layers of LLaMA lack substantial arithmetic and factual
knowledge, showcasing logical thinking, multilingual and recognitive abilities,
with top layers housing most computational power and real-world knowledge.