Los Modelos de Lenguaje son Aprendices Simbólicos en Aritmética.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Autores: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Resumen
Se cree que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) tienen dificultades con el aprendizaje aritmético debido a las diferencias inherentes entre el modelado del lenguaje y la computación numérica, pero ha faltado evidencia concreta al respecto. Este trabajo responde a esta afirmación a través de un experimento de dos partes. Primero investigamos si los LLMs aprovechan los productos parciales durante el aprendizaje aritmético. Descubrimos que aunque los LLMs pueden identificar algunos productos parciales después del aprendizaje, no logran aprovecharlos para las tareas aritméticas, al contrario. Luego exploramos cómo los LLMs abordan la aritmética de manera simbólica al desglosar las tareas en subgrupos, planteando la hipótesis de que las dificultades surgen de la complejidad y selección de los subgrupos. Nuestros resultados muestran que cuando la complejidad del subgrupo está fija, los LLMs tratan una colección de diferentes operaciones aritméticas de manera similar. Al analizar la precisión a nivel de posición a través de diferentes tamaños de entrenamiento, observamos además que sigue un patrón en forma de U: los LLMs aprenden rápidamente los patrones más fáciles en las primeras y últimas posiciones, mientras que progresivamente aprenden los patrones más difíciles en las posiciones intermedias. Esto sugiere que los LLMs seleccionan subgrupos siguiendo un paradigma de fácil a difícil durante el aprendizaje. Nuestro trabajo confirma que los LLMs son aprendices puramente simbólicos en tareas aritméticas y destaca la importancia de comprenderlos profundamente a través de la cuantificación a nivel de subgrupo.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary