WirelessMathLM: Ensinando Raciocínio Matemático para LLMs em Comunicações Sem Fio com Aprendizado por Reforço
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
Autores: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) se destacam no raciocínio matemático geral, mas falham catastróficamente em matemática técnica especializada. Em comunicações sem fio, onde os problemas exigem manipulação precisa de limites teóricos da informação, restrições de otimização e formulações de processamento de sinais, até mesmo os modelos mais avançados lutam para alcançar um desempenho competente. Apresentamos o WirelessMathLM, demonstrando que modelos compactos (0,5B-7B parâmetros) podem igualar ou superar modelos muito maiores por meio de aprendizado por reforço específico do domínio com recompensas verificáveis. Nossa principal percepção é que os problemas de matemática sem fio possuem uma propriedade única—correção verificável—que permite um aprendizado por reforço eficaz sem feedback humano. Construímos o WirelessMathBench-XL, um benchmark abrangente de 4.027 problemas de 970 artigos. Usando a Otimização de Política Relativa de Grupo (GRPO) com recompensas de verificação binária, treinamos modelos diretamente a partir de checkpoints base sem aquecimento supervisionado. Nosso modelo de 7B alcança 39,5% de precisão no WirelessMathBench-XL, aproximando-se do GPT-4o (40,4%) enquanto usa cerca de 100 vezes menos parâmetros que o DeepSeek-R1 (671B, 57,4%). Notavelmente, o treinamento com GRPO quase dobra o desempenho em todas as escalas de modelo (0,5B +11%, 3B +103%, 7B +81%), com transferência positiva para benchmarks de matemática geral—nossos modelos ganham +8,4 pontos em média em MATH, Minerva-Math, OlympiadBench, AMC e AIME sem qualquer treinamento nessas tarefas.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.