WirelessMathLM: Wiskundig Redeneren Onderwijzen aan LLM's in Draadloze Communicatie met Reinforcement Learning

Samenvatting

Grote taalmodellen (LLMs) blinken uit in algemeen wiskundig redeneren, maar falen catastrofaal op gespecialiseerde technische wiskunde. In draadloze communicatie, waar problemen een precieze manipulatie vereisen van informatie-theoretische grenzen, optimalisatiebeperkingen en signaalverwerkingsformuleringen, hebben zelfs de meest geavanceerde modellen moeite om competente prestaties te leveren. Wij presenteren WirelessMathLM, dat aantoont dat compacte modellen (0,5B-7B parameters) veel grotere modellen kunnen evenaren of overtreffen door domeinspecifieke reinforcement learning met verifieerbare beloningen. Onze belangrijkste inzicht is dat problemen in draadloze wiskunde een unieke eigenschap hebben—verifieerbare correctheid—die effectieve reinforcement learning mogelijk maakt zonder menselijke feedback. We construeren WirelessMathBench-XL, een uitgebreide benchmark van 4.027 problemen uit 970 papers. Met behulp van Group Relative Policy Optimization (GRPO) met binaire verificatiebeloningen trainen we modellen direct vanuit basischeckpoints zonder gesuperviseerde warm-start. Ons 7B-model behaalt 39,5% nauwkeurigheid op WirelessMathBench-XL, wat GPT-4o (40,4%) benadert terwijl het ongeveer 100 keer minder parameters gebruikt dan DeepSeek-R1 (671B, 57,4%). Opmerkelijk is dat GRPO-training de prestaties bijna verdubbelt over alle modelschalen (0,5B +11%, 3B +103%, 7B +81%), met positieve transfer naar algemene wiskundige benchmarks—onze modellen winnen gemiddeld +8,4 punten op MATH, Minerva-Math, OlympiadBench, AMC en AIME zonder enige training op deze taken.

English

Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.

WirelessMathLM: Wiskundig Redeneren Onderwijzen aan LLM's in Draadloze Communicatie met Reinforcement Learning

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

Samenvatting

Support