MathBode : Empreintes fréquentielles du raisonnement mathématique des grands modèles de langage
MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning
September 27, 2025
papers.authors: Charles L. Wang
cs.AI
papers.abstract
Cet article présente MathBode, un diagnostic dynamique pour le raisonnement mathématique dans les grands modèles de langage (LLMs). Plutôt que de se focaliser sur la précision en une seule étape, MathBode traite chaque problème paramétrique comme un système : nous modulons sinusoïdalement un seul paramètre et ajustons les réponses de premier harmonique des sorties du modèle et des solutions exactes. Cela produit des métriques interprétables et résolues en fréquence — gain (suivi d'amplitude) et phase (décalage) — qui forment des empreintes de style Bode. À travers cinq familles de problèmes en forme close (résolution linéaire, rapport/saturation, intérêt composé, systèmes linéaires 2x2, triangles similaires), le diagnostic révèle un comportement systématique de type passe-bas et un décalage de phase croissant que la précision seule masque. Nous comparons plusieurs modèles à une référence symbolique qui étalonne l'instrument (G ≈ 1, φ ≈ 0). Les résultats distinguent les modèles de pointe des modèles intermédiaires sur la dynamique, fournissant un protocole compact et reproductible qui complète les benchmarks standards avec des mesures actionnables de fidélité et de cohérence du raisonnement. Nous mettons à disposition le jeu de données et le code en open source pour permettre des recherches approfondies et une adoption plus large.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning
in large language models (LLMs). Instead of one-shot accuracy, MathBode treats
each parametric problem as a system: we drive a single parameter sinusoidally
and fit first-harmonic responses of model outputs and exact solutions. This
yields interpretable, frequency-resolved metrics -- gain (amplitude tracking)
and phase (lag) -- that form Bode-style fingerprints. Across five closed-form
families (linear solve, ratio/saturation, compound interest, 2x2 linear
systems, similar triangles), the diagnostic surfaces systematic low-pass
behavior and growing phase lag that accuracy alone obscures. We compare several
models against a symbolic baseline that calibrates the instrument (G approx
1, phi approx 0). Results separate frontier from mid-tier models on
dynamics, providing a compact, reproducible protocol that complements standard
benchmarks with actionable measurements of reasoning fidelity and consistency.
We open-source the dataset and code to enable further research and adoption.