MathBode: Huellas Digitales en el Dominio de la Frecuencia del Razonamiento Matemático en LLM
MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning
September 27, 2025
Autores: Charles L. Wang
cs.AI
Resumen
Este artículo presenta MathBode, una herramienta de diagnóstico dinámico para el razonamiento matemático en modelos de lenguaje de gran escala (LLMs). En lugar de medir la precisión en una sola instancia, MathBode trata cada problema paramétrico como un sistema: variamos un único parámetro de forma sinusoidal y ajustamos las respuestas de primer armónico de las salidas del modelo y las soluciones exactas. Esto produce métricas interpretables y resueltas en frecuencia —ganancia (seguimiento de amplitud) y fase (retraso)— que forman huellas digitales al estilo de Bode. A través de cinco familias de problemas de forma cerrada (resolución lineal, razón/saturación, interés compuesto, sistemas lineales 2x2 y triángulos semejantes), el diagnóstico revela un comportamiento sistemático de paso bajo y un creciente retraso de fase que la precisión por sí sola no detecta. Comparamos varios modelos con una línea base simbólica que calibra el instrumento (G ≈ 1, φ ≈ 0). Los resultados distinguen a los modelos de vanguardia de los de nivel medio en términos de dinámica, proporcionando un protocolo compacto y reproducible que complementa los puntos de referencia estándar con mediciones accionables de fidelidad y consistencia en el razonamiento. Publicamos el conjunto de datos y el código para facilitar investigaciones futuras y su adopción.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning
in large language models (LLMs). Instead of one-shot accuracy, MathBode treats
each parametric problem as a system: we drive a single parameter sinusoidally
and fit first-harmonic responses of model outputs and exact solutions. This
yields interpretable, frequency-resolved metrics -- gain (amplitude tracking)
and phase (lag) -- that form Bode-style fingerprints. Across five closed-form
families (linear solve, ratio/saturation, compound interest, 2x2 linear
systems, similar triangles), the diagnostic surfaces systematic low-pass
behavior and growing phase lag that accuracy alone obscures. We compare several
models against a symbolic baseline that calibrates the instrument (G approx
1, phi approx 0). Results separate frontier from mid-tier models on
dynamics, providing a compact, reproducible protocol that complements standard
benchmarks with actionable measurements of reasoning fidelity and consistency.
We open-source the dataset and code to enable further research and adoption.