MathBode: Частотные характеристики математического рассуждения языковых моделей
MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning
September 27, 2025
Авторы: Charles L. Wang
cs.AI
Аннотация
В данной статье представлен MathBode — динамический диагностический инструмент для оценки математического мышления в больших языковых моделях (LLM). В отличие от одноразовой точности, MathBode рассматривает каждую параметрическую задачу как систему: мы изменяем один параметр синусоидально и анализируем первые гармоники откликов выходных данных модели и точных решений. Это позволяет получить интерпретируемые, частотно-разрешенные метрики — усиление (отслеживание амплитуды) и фазу (задержку), — которые формируют отпечатки в стиле диаграмм Боде. На примере пяти семейств задач с замкнутыми решениями (линейные уравнения, соотношения/насыщение, сложные проценты, системы линейных уравнений 2x2, подобные треугольники) диагностика выявляет систематическое низкочастотное поведение и растущую фазовую задержку, которые остаются незаметными при оценке только точности. Мы сравниваем несколько моделей с символическим базовым уровнем, который калибрует инструмент (G ≈ 1, φ ≈ 0). Результаты разделяют передовые и средние модели по динамическим характеристикам, предлагая компактный, воспроизводимый протокол, который дополняет стандартные бенчмарки полезными измерениями точности и согласованности рассуждений. Мы открываем исходный код и набор данных для дальнейших исследований и внедрения.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning
in large language models (LLMs). Instead of one-shot accuracy, MathBode treats
each parametric problem as a system: we drive a single parameter sinusoidally
and fit first-harmonic responses of model outputs and exact solutions. This
yields interpretable, frequency-resolved metrics -- gain (amplitude tracking)
and phase (lag) -- that form Bode-style fingerprints. Across five closed-form
families (linear solve, ratio/saturation, compound interest, 2x2 linear
systems, similar triangles), the diagnostic surfaces systematic low-pass
behavior and growing phase lag that accuracy alone obscures. We compare several
models against a symbolic baseline that calibrates the instrument (G approx
1, phi approx 0). Results separate frontier from mid-tier models on
dynamics, providing a compact, reproducible protocol that complements standard
benchmarks with actionable measurements of reasoning fidelity and consistency.
We open-source the dataset and code to enable further research and adoption.