Voorbij het Oppervlak: Onderzoek naar LLaMA Over Schalen en Lagen Heen
Beyond Surface: Probing LLaMA Across Scales and Layers
December 7, 2023
Auteurs: Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li
cs.AI
Samenvatting
Dit artikel presenteert een diepgaande analyse van Large Language Models (LLM's), met een focus op LLaMA, een prominent open-source fundamenteel model in natuurlijke taalverwerking. In plaats van LLaMA te beoordelen via zijn generatieve output, ontwerpen we meerkeuzetaken om zijn intrinsieke begrip te onderzoeken in hogere-orde taken zoals redeneren en rekenen. We onderzoeken het model horizontaal, door verschillende groottes te vergelijken, en verticaal, door verschillende lagen te beoordelen. We onthullen verschillende belangrijke en ongebruikelijke bevindingen op basis van de ontworpen onderzoektaken: (1) Horizontaal gezien kon het vergroten van de modelgroottes bijna geen extra kennis of rekenkracht automatisch toevoegen. In plaats daarvan kan het redeneervaardigheden verbeteren, vooral bij het oplossen van wiskundige problemen, en helpt het hallucinaties te verminderen, maar alleen voorbij bepaalde grootte-drempels; (2) In verticale analyse ontbreekt het de onderste lagen van LLaMA aan substantiële rekenkundige en feitelijke kennis, terwijl ze logisch denken, meertalige en herkenningsvaardigheden tonen, waarbij de bovenste lagen het meeste rekenvermogen en kennis van de echte wereld bevatten.
English
This paper presents an in-depth analysis of Large Language Models (LLMs),
focusing on LLaMA, a prominent open-source foundational model in natural
language processing. Instead of assessing LLaMA through its generative output,
we design multiple-choice tasks to probe its intrinsic understanding in
high-order tasks such as reasoning and computation. We examine the model
horizontally, comparing different sizes, and vertically, assessing different
layers. We unveil several key and uncommon findings based on the designed
probing tasks: (1) Horizontally, enlarging model sizes almost could not
automatically impart additional knowledge or computational prowess. Instead, it
can enhance reasoning abilities, especially in math problem solving, and helps
reduce hallucinations, but only beyond certain size thresholds; (2) In vertical
analysis, the lower layers of LLaMA lack substantial arithmetic and factual
knowledge, showcasing logical thinking, multilingual and recognitive abilities,
with top layers housing most computational power and real-world knowledge.