MathBode: Huellas Digitales en el Dominio de la Frecuencia del Razonamiento Matemático en LLM

Resumen

Este artículo presenta MathBode, una herramienta de diagnóstico dinámico para el razonamiento matemático en modelos de lenguaje de gran escala (LLMs). En lugar de medir la precisión en una sola instancia, MathBode trata cada problema paramétrico como un sistema: variamos un único parámetro de forma sinusoidal y ajustamos las respuestas de primer armónico de las salidas del modelo y las soluciones exactas. Esto produce métricas interpretables y resueltas en frecuencia —ganancia (seguimiento de amplitud) y fase (retraso)— que forman huellas digitales al estilo de Bode. A través de cinco familias de problemas de forma cerrada (resolución lineal, razón/saturación, interés compuesto, sistemas lineales 2x2 y triángulos semejantes), el diagnóstico revela un comportamiento sistemático de paso bajo y un creciente retraso de fase que la precisión por sí sola no detecta. Comparamos varios modelos con una línea base simbólica que calibra el instrumento (G ≈ 1, φ ≈ 0). Los resultados distinguen a los modelos de vanguardia de los de nivel medio en términos de dinámica, proporcionando un protocolo compacto y reproducible que complementa los puntos de referencia estándar con mediciones accionables de fidelidad y consistencia en el razonamiento. Publicamos el conjunto de datos y el código para facilitar investigaciones futuras y su adopción.

English

This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument (G approx 1, phi approx 0). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.

MathBode: Huellas Digitales en el Dominio de la Frecuencia del Razonamiento Matemático en LLM

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

Resumen

Support