Más allá de la superficie: Explorando LLaMA a través de escalas y capas
Beyond Surface: Probing LLaMA Across Scales and Layers
December 7, 2023
Autores: Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li
cs.AI
Resumen
Este artículo presenta un análisis en profundidad de los Modelos de Lenguaje de Gran Escala (LLMs), centrándose en LLaMA, un destacado modelo fundacional de código abierto en el procesamiento del lenguaje natural. En lugar de evaluar LLaMA a través de su capacidad generativa, diseñamos tareas de opción múltiple para sondear su comprensión intrínseca en tareas de alto orden, como el razonamiento y la computación. Examinamos el modelo horizontalmente, comparando diferentes tamaños, y verticalmente, evaluando diferentes capas. Revelamos varios hallazgos clave e inusuales basados en las tareas de sondeo diseñadas: (1) Horizontalmente, aumentar el tamaño del modelo casi no puede impartir automáticamente conocimiento adicional o destreza computacional. En cambio, puede mejorar las habilidades de razonamiento, especialmente en la resolución de problemas matemáticos, y ayuda a reducir las alucinaciones, pero solo más allá de ciertos umbrales de tamaño; (2) En el análisis vertical, las capas inferiores de LLaMA carecen de conocimiento aritmético y factual sustancial, mostrando pensamiento lógico, habilidades multilingües y de reconocimiento, mientras que las capas superiores albergan la mayor parte del poder computacional y el conocimiento del mundo real.
English
This paper presents an in-depth analysis of Large Language Models (LLMs),
focusing on LLaMA, a prominent open-source foundational model in natural
language processing. Instead of assessing LLaMA through its generative output,
we design multiple-choice tasks to probe its intrinsic understanding in
high-order tasks such as reasoning and computation. We examine the model
horizontally, comparing different sizes, and vertically, assessing different
layers. We unveil several key and uncommon findings based on the designed
probing tasks: (1) Horizontally, enlarging model sizes almost could not
automatically impart additional knowledge or computational prowess. Instead, it
can enhance reasoning abilities, especially in math problem solving, and helps
reduce hallucinations, but only beyond certain size thresholds; (2) In vertical
analysis, the lower layers of LLaMA lack substantial arithmetic and factual
knowledge, showcasing logical thinking, multilingual and recognitive abilities,
with top layers housing most computational power and real-world knowledge.