MathBode: Frequenzbereich-Fingerabdrücke des mathematischen Denkens von LLMs
MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning
September 27, 2025
papers.authors: Charles L. Wang
cs.AI
papers.abstract
Dieses Paper stellt MathBode vor, eine dynamische Diagnostik für mathematisches Denken in großen Sprachmodellen (LLMs). Anstelle von Einzelmessungen der Genauigkeit behandelt MathBode jedes parametrische Problem als System: Wir variieren einen einzelnen Parameter sinusförmig und passen die Antworten der Modellausgaben und exakten Lösungen auf die erste Harmonische an. Dies liefert interpretierbare, frequenzaufgelöste Metriken – Verstärkung (Amplitudenverfolgung) und Phase (Verzögerung) – die Bode-ähnliche Fingerabdrücke bilden. Über fünf geschlossene Problemfamilien hinweg (lineare Gleichungslösung, Verhältnis/Sättigung, Zinseszins, 2x2 lineare Systeme, ähnliche Dreiecke) deckt die Diagnostik systematisches Tiefpassverhalten und zunehmende Phasenverzögerung auf, die durch reine Genauigkeitsmessungen verborgen bleiben. Wir vergleichen mehrere Modelle mit einer symbolischen Referenz, die das Instrument kalibriert (G ≈ 1, φ ≈ 0). Die Ergebnisse unterscheiden Spitzenmodelle von mittelmäßigen Modellen hinsichtlich ihrer Dynamik und bieten ein kompaktes, reproduzierbares Protokoll, das Standard-Benchmarks durch aussagekräftige Messungen der Denkgenauigkeit und -konsistenz ergänzt. Wir stellen den Datensatz und den Code als Open Source zur Verfügung, um weitere Forschung und Verbreitung zu ermöglichen.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning
in large language models (LLMs). Instead of one-shot accuracy, MathBode treats
each parametric problem as a system: we drive a single parameter sinusoidally
and fit first-harmonic responses of model outputs and exact solutions. This
yields interpretable, frequency-resolved metrics -- gain (amplitude tracking)
and phase (lag) -- that form Bode-style fingerprints. Across five closed-form
families (linear solve, ratio/saturation, compound interest, 2x2 linear
systems, similar triangles), the diagnostic surfaces systematic low-pass
behavior and growing phase lag that accuracy alone obscures. We compare several
models against a symbolic baseline that calibrates the instrument (G approx
1, phi approx 0). Results separate frontier from mid-tier models on
dynamics, providing a compact, reproducible protocol that complements standard
benchmarks with actionable measurements of reasoning fidelity and consistency.
We open-source the dataset and code to enable further research and adoption.