MathBode: Frequenzbereich-Fingerabdrücke des mathematischen Denkens von LLMs

papers.abstract

Dieses Paper stellt MathBode vor, eine dynamische Diagnostik für mathematisches Denken in großen Sprachmodellen (LLMs). Anstelle von Einzelmessungen der Genauigkeit behandelt MathBode jedes parametrische Problem als System: Wir variieren einen einzelnen Parameter sinusförmig und passen die Antworten der Modellausgaben und exakten Lösungen auf die erste Harmonische an. Dies liefert interpretierbare, frequenzaufgelöste Metriken – Verstärkung (Amplitudenverfolgung) und Phase (Verzögerung) – die Bode-ähnliche Fingerabdrücke bilden. Über fünf geschlossene Problemfamilien hinweg (lineare Gleichungslösung, Verhältnis/Sättigung, Zinseszins, 2x2 lineare Systeme, ähnliche Dreiecke) deckt die Diagnostik systematisches Tiefpassverhalten und zunehmende Phasenverzögerung auf, die durch reine Genauigkeitsmessungen verborgen bleiben. Wir vergleichen mehrere Modelle mit einer symbolischen Referenz, die das Instrument kalibriert (G ≈ 1, φ ≈ 0). Die Ergebnisse unterscheiden Spitzenmodelle von mittelmäßigen Modellen hinsichtlich ihrer Dynamik und bieten ein kompaktes, reproduzierbares Protokoll, das Standard-Benchmarks durch aussagekräftige Messungen der Denkgenauigkeit und -konsistenz ergänzt. Wir stellen den Datensatz und den Code als Open Source zur Verfügung, um weitere Forschung und Verbreitung zu ermöglichen.

English

This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument (G approx 1, phi approx 0). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.

MathBode: Frequenzbereich-Fingerabdrücke des mathematischen Denkens von LLMs

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

papers.abstract

Support