ChatPaper.aiChatPaper

MathBode: Impronte digitali nel dominio della frequenza del ragionamento matematico nei LLM

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

September 27, 2025
Autori: Charles L. Wang
cs.AI

Abstract

Questo articolo presenta MathBode, un diagnostico dinamico per il ragionamento matematico nei grandi modelli linguistici (LLM). Invece di basarsi sull'accuratezza one-shot, MathBode tratta ogni problema parametrico come un sistema: moduliamo un singolo parametro in modo sinusoidale e adattiamo le risposte della prima armonica delle uscite del modello e delle soluzioni esatte. Questo produce metriche interpretabili e risolte in frequenza -- guadagno (tracciamento dell'ampiezza) e fase (ritardo) -- che formano impronte digitali in stile Bode. Attraverso cinque famiglie di problemi a forma chiusa (risoluzione lineare, rapporto/saturazione, interesse composto, sistemi lineari 2x2, triangoli simili), il diagnostico rivela un comportamento sistematico di tipo passa-basso e un crescente ritardo di fase che l'accuratezza da sola nasconde. Confrontiamo diversi modelli con una baseline simbolica che calibra lo strumento (G ≈ 1, φ ≈ 0). I risultati distinguono i modelli all'avanguardia da quelli di fascia media in termini di dinamica, fornendo un protocollo compatto e riproducibile che integra i benchmark standard con misurazioni operative della fedeltà e della coerenza del ragionamento. Rendiamo disponibili open-source il dataset e il codice per favorire ulteriori ricerche e adozioni.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument (G approx 1, phi approx 0). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.
PDF42September 30, 2025