Языковые модели являются символьными обучающимися в арифметике.
Language Models are Symbolic Learners in Arithmetic
October 21, 2024
Авторы: Chunyuan Deng, Zhiqi Li, Roy Xie, Ruidi Chang, Hanjie Chen
cs.AI
Аннотация
Большие языковые модели (LLM) считается имеют трудности с изучением арифметики из-за врожденных различий между моделированием языка и числовыми вычислениями, однако конкретных доказательств этого не было. В данной работе отвечается на это утверждение через двусторонний эксперимент. Сначала исследуется, используют ли LLM частичные произведения в процессе изучения арифметики. Мы обнаружили, что хотя LLM могут идентифицировать некоторые частичные произведения после обучения, они не могут использовать их для арифметических задач. Затем исследуется, как LLM подходят к арифметике символически, разбивая задачи на подгруппы, предполагая, что трудности возникают из-за сложности и выбора подгрупп. Наши результаты показывают, что при фиксированной сложности подгрупп LLM обрабатывают набор различных арифметических операций сходным образом. Анализируя точность на уровне позиции при различных размерах обучающих выборок, мы также наблюдаем, что она следует U-образному образцу: LLM быстро усваивают самые простые шаблоны на первой и последней позициях, постепенно учась более сложным шаблонам на средних позициях. Это подтверждает, что LLM выбирают подгруппы, следуя парадигме от простого к сложному в процессе обучения. Наша работа подтверждает, что LLM являются чистыми символическими обучающимися в арифметических задачах и подчеркивает важность глубокого понимания их через количественную оценку на уровне подгрупп.
English
Large Language Models (LLMs) are thought to struggle with arithmetic learning
due to the inherent differences between language modeling and numerical
computation, but concrete evidence has been lacking. This work responds to this
claim through a two-side experiment. We first investigate whether LLMs leverage
partial products during arithmetic learning. We find that although LLMs can
identify some partial products after learning, they fail to leverage them for
arithmetic tasks, conversely. We then explore how LLMs approach arithmetic
symbolically by breaking tasks into subgroups, hypothesizing that difficulties
arise from subgroup complexity and selection. Our results show that when
subgroup complexity is fixed, LLMs treat a collection of different arithmetic
operations similarly. By analyzing position-level accuracy across different
training sizes, we further observe that it follows a U-shaped pattern: LLMs
quickly learn the easiest patterns at the first and last positions, while
progressively learning the more difficult patterns in the middle positions.
This suggests that LLMs select subgroup following an easy-to-hard paradigm
during learning. Our work confirms that LLMs are pure symbolic learners in
arithmetic tasks and underscores the importance of understanding them deeply
through subgroup-level quantification.Summary
AI-Generated Summary