MathBode: Frequentiedomein-vingerafdrukken van wiskundig redeneren in grote taalmodellen
MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning
September 27, 2025
Auteurs: Charles L. Wang
cs.AI
Samenvatting
Dit artikel introduceert MathBode, een dynamische diagnostische tool voor wiskundig redeneren in grote taalmodellen (LLMs). In plaats van éénmalige nauwkeurigheid behandelt MathBode elk parametrisch probleem als een systeem: we variëren één parameter sinusvormig en passen de eerste-harmonische responsen van modeluitvoer en exacte oplossingen aan. Dit levert interpreteerbare, frequentie-gespecificeerde metrieken op -- versterking (amplitudetracking) en fase (vertraging) -- die Bode-stijl vingerafdrukken vormen. Over vijf gesloten-vormfamilies (lineaire oplossing, ratio/verzadiging, samengestelde interest, 2x2 lineaire systemen, gelijkvormige driehoeken) onthult de diagnostiek systematisch laagdoorlaatgedrag en toenemende fasevertraging die nauwkeurigheid alleen verhult. We vergelijken verschillende modellen met een symbolische referentie die het instrument kalibreert (G ≈ 1, phi ≈ 0). De resultaten onderscheiden topmodellen van middenklassemodellen op dynamiek, en bieden een compact, reproduceerbaar protocol dat standaardbenchmarks aanvult met bruikbare metingen van redeneerbetrouwbaarheid en consistentie. We stellen de dataset en code openbaar om verder onderzoek en adoptie mogelijk te maken.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning
in large language models (LLMs). Instead of one-shot accuracy, MathBode treats
each parametric problem as a system: we drive a single parameter sinusoidally
and fit first-harmonic responses of model outputs and exact solutions. This
yields interpretable, frequency-resolved metrics -- gain (amplitude tracking)
and phase (lag) -- that form Bode-style fingerprints. Across five closed-form
families (linear solve, ratio/saturation, compound interest, 2x2 linear
systems, similar triangles), the diagnostic surfaces systematic low-pass
behavior and growing phase lag that accuracy alone obscures. We compare several
models against a symbolic baseline that calibrates the instrument (G approx
1, phi approx 0). Results separate frontier from mid-tier models on
dynamics, providing a compact, reproducible protocol that complements standard
benchmarks with actionable measurements of reasoning fidelity and consistency.
We open-source the dataset and code to enable further research and adoption.