ChatPaper.aiChatPaper

Au-delà de la surface : Exploration de LLaMA à travers les échelles et les couches

Beyond Surface: Probing LLaMA Across Scales and Layers

December 7, 2023
Auteurs: Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li
cs.AI

Résumé

Cet article présente une analyse approfondie des modèles de langage de grande taille (LLMs), en se concentrant sur LLaMA, un modèle fondamental open-source majeur en traitement du langage naturel. Plutôt que d'évaluer LLaMA à travers sa capacité générative, nous concevons des tâches à choix multiples pour sonder sa compréhension intrinsèque dans des tâches de haut niveau telles que le raisonnement et le calcul. Nous examinons le modèle horizontalement, en comparant différentes tailles, et verticalement, en évaluant différentes couches. Nous révélons plusieurs découvertes clés et inhabituelles basées sur les tâches de sondage conçues : (1) Horizontalement, l'augmentation de la taille des modèles ne confère presque jamais automatiquement des connaissances supplémentaires ou une puissance de calcul accrue. En revanche, elle peut améliorer les capacités de raisonnement, en particulier dans la résolution de problèmes mathématiques, et aide à réduire les hallucinations, mais seulement au-delà de certains seuils de taille ; (2) Dans l'analyse verticale, les couches inférieures de LLaMA manquent de connaissances arithmétiques et factuelles substantielles, tout en démontrant des capacités de pensée logique, multilingue et de reconnaissance, tandis que les couches supérieures abritent la plupart de la puissance de calcul et des connaissances du monde réel.
English
This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge.
PDF202December 15, 2024