MathBode: Frequentiedomein-vingerafdrukken van wiskundig redeneren in grote taalmodellen

Samenvatting

Dit artikel introduceert MathBode, een dynamische diagnostische tool voor wiskundig redeneren in grote taalmodellen (LLMs). In plaats van éénmalige nauwkeurigheid behandelt MathBode elk parametrisch probleem als een systeem: we variëren één parameter sinusvormig en passen de eerste-harmonische responsen van modeluitvoer en exacte oplossingen aan. Dit levert interpreteerbare, frequentie-gespecificeerde metrieken op -- versterking (amplitudetracking) en fase (vertraging) -- die Bode-stijl vingerafdrukken vormen. Over vijf gesloten-vormfamilies (lineaire oplossing, ratio/verzadiging, samengestelde interest, 2x2 lineaire systemen, gelijkvormige driehoeken) onthult de diagnostiek systematisch laagdoorlaatgedrag en toenemende fasevertraging die nauwkeurigheid alleen verhult. We vergelijken verschillende modellen met een symbolische referentie die het instrument kalibreert (G ≈ 1, phi ≈ 0). De resultaten onderscheiden topmodellen van middenklassemodellen op dynamiek, en bieden een compact, reproduceerbaar protocol dat standaardbenchmarks aanvult met bruikbare metingen van redeneerbetrouwbaarheid en consistentie. We stellen de dataset en code openbaar om verder onderzoek en adoptie mogelijk te maken.

English

This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument (G approx 1, phi approx 0). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.

MathBode: Frequentiedomein-vingerafdrukken van wiskundig redeneren in grote taalmodellen

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

Samenvatting

Support