WirelessMathLM: Ensinando Raciocínio Matemático para LLMs em Comunicações Sem Fio com Aprendizado por Reforço

Resumo

Modelos de linguagem de grande escala (LLMs) se destacam no raciocínio matemático geral, mas falham catastróficamente em matemática técnica especializada. Em comunicações sem fio, onde os problemas exigem manipulação precisa de limites teóricos da informação, restrições de otimização e formulações de processamento de sinais, até mesmo os modelos mais avançados lutam para alcançar um desempenho competente. Apresentamos o WirelessMathLM, demonstrando que modelos compactos (0,5B-7B parâmetros) podem igualar ou superar modelos muito maiores por meio de aprendizado por reforço específico do domínio com recompensas verificáveis. Nossa principal percepção é que os problemas de matemática sem fio possuem uma propriedade única—correção verificável—que permite um aprendizado por reforço eficaz sem feedback humano. Construímos o WirelessMathBench-XL, um benchmark abrangente de 4.027 problemas de 970 artigos. Usando a Otimização de Política Relativa de Grupo (GRPO) com recompensas de verificação binária, treinamos modelos diretamente a partir de checkpoints base sem aquecimento supervisionado. Nosso modelo de 7B alcança 39,5% de precisão no WirelessMathBench-XL, aproximando-se do GPT-4o (40,4%) enquanto usa cerca de 100 vezes menos parâmetros que o DeepSeek-R1 (671B, 57,4%). Notavelmente, o treinamento com GRPO quase dobra o desempenho em todas as escalas de modelo (0,5B +11%, 3B +103%, 7B +81%), com transferência positiva para benchmarks de matemática geral—nossos modelos ganham +8,4 pontos em média em MATH, Minerva-Math, OlympiadBench, AMC e AIME sem qualquer treinamento nessas tarefas.

English

Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.

WirelessMathLM: Ensinando Raciocínio Matemático para LLMs em Comunicações Sem Fio com Aprendizado por Reforço

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

Resumo

Support