WirelessMathLM: Wiskundig Redeneren Onderwijzen aan LLM's in Draadloze Communicatie met Reinforcement Learning
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
Auteurs: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) blinken uit in algemeen wiskundig redeneren, maar falen catastrofaal op gespecialiseerde technische wiskunde. In draadloze communicatie, waar problemen een precieze manipulatie vereisen van informatie-theoretische grenzen, optimalisatiebeperkingen en signaalverwerkingsformuleringen, hebben zelfs de meest geavanceerde modellen moeite om competente prestaties te leveren. Wij presenteren WirelessMathLM, dat aantoont dat compacte modellen (0,5B-7B parameters) veel grotere modellen kunnen evenaren of overtreffen door domeinspecifieke reinforcement learning met verifieerbare beloningen. Onze belangrijkste inzicht is dat problemen in draadloze wiskunde een unieke eigenschap hebben—verifieerbare correctheid—die effectieve reinforcement learning mogelijk maakt zonder menselijke feedback. We construeren WirelessMathBench-XL, een uitgebreide benchmark van 4.027 problemen uit 970 papers. Met behulp van Group Relative Policy Optimization (GRPO) met binaire verificatiebeloningen trainen we modellen direct vanuit basischeckpoints zonder gesuperviseerde warm-start. Ons 7B-model behaalt 39,5% nauwkeurigheid op WirelessMathBench-XL, wat GPT-4o (40,4%) benadert terwijl het ongeveer 100 keer minder parameters gebruikt dan DeepSeek-R1 (671B, 57,4%). Opmerkelijk is dat GRPO-training de prestaties bijna verdubbelt over alle modelschalen (0,5B +11%, 3B +103%, 7B +81%), met positieve transfer naar algemene wiskundige benchmarks—onze modellen winnen gemiddeld +8,4 punten op MATH, Minerva-Math, OlympiadBench, AMC en AIME zonder enige training op deze taken.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.