ChatPaper.aiChatPaper

MathBode: Impressões Digitais no Domínio da Frequência do Raciocínio Matemático em LLMs

MathBode: Frequency-Domain Fingerprints of LLM Mathematical Reasoning

September 27, 2025
Autores: Charles L. Wang
cs.AI

Resumo

Este artigo apresenta o MathBode, uma ferramenta de diagnóstico dinâmico para o raciocínio matemático em modelos de linguagem de grande escala (LLMs). Em vez de precisão pontual, o MathBode trata cada problema paramétrico como um sistema: variamos um único parâmetro de forma senoidal e ajustamos as respostas de primeira harmônica das saídas do modelo e das soluções exatas. Isso produz métricas interpretáveis e resolvidas em frequência — ganho (rastreamento de amplitude) e fase (atraso) — que formam impressões digitais no estilo de Bode. Em cinco famílias de problemas de forma fechada (resolução linear, razão/saturação, juros compostos, sistemas lineares 2x2, triângulos semelhantes), o diagnóstico revela comportamentos sistemáticos de passa-baixa e atrasos de fase crescentes que a precisão isolada oculta. Comparamos vários modelos em relação a uma linha de base simbólica que calibra o instrumento (G ≈ 1, φ ≈ 0). Os resultados distinguem modelos de ponta de modelos intermediários em termos de dinâmica, fornecendo um protocolo compacto e reproduzível que complementa benchmarks padrão com medições acionáveis de fidelidade e consistência do raciocínio. Disponibilizamos o conjunto de dados e o código em código aberto para permitir mais pesquisas e adoção.
English
This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument (G approx 1, phi approx 0). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.
PDF42September 30, 2025