ChatPaper.aiChatPaper

WirelessMathLM: Vermittlung mathematischer Denkfähigkeiten für LLMs in der drahtlosen Kommunikation mittels Reinforcement Learning

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

September 27, 2025
papers.authors: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) zeichnen sich durch allgemeines mathematisches Denken aus, scheitern jedoch katastrophal bei spezialisierter technischer Mathematik. In der drahtlosen Kommunikation, wo Probleme eine präzise Manipulation von informationstheoretischen Grenzen, Optimierungsbeschränkungen und Signalverarbeitungsformulierungen erfordern, kämpfen selbst state-of-the-art Modelle darum, kompetente Leistungen zu erzielen. Wir präsentieren WirelessMathLM und zeigen, dass kompakte Modelle (0,5B–7B Parameter) durch domänenspezifisches Reinforcement Learning mit überprüfbaren Belohnungen viel größere Modelle übertreffen oder gleichziehen können. Unsere zentrale Erkenntnis ist, dass Probleme der drahtlosen Mathematik eine einzigartige Eigenschaft besitzen – überprüfbare Korrektheit –, die effektives Reinforcement Learning ohne menschliches Feedback ermöglicht. Wir konstruieren WirelessMathBench-XL, einen umfassenden Benchmark mit 4.027 Problemen aus 970 wissenschaftlichen Arbeiten. Unter Verwendung von Group Relative Policy Optimization (GRPO) mit binären Überprüfungsbelohnungen trainieren wir Modelle direkt von Basis-Checkpoints aus, ohne überwachte Vorbereitung. Unser 7B-Modell erreicht eine Genauigkeit von 39,5 % auf WirelessMathBench-XL und nähert sich GPT-4o (40,4 %) an, während es etwa 100 Mal weniger Parameter verwendet als DeepSeek-R1 (671B, 57,4 %). Bemerkenswerterweise verdoppelt das GRPO-Training nahezu die Leistung über alle Modellgrößen hinweg (0,5B +11 %, 3B +103 %, 7B +81 %), mit positiver Übertragung auf allgemeine mathematische Benchmarks – unsere Modelle gewinnen durchschnittlich +8,4 Punkte auf MATH, Minerva-Math, OlympiadBench, AMC und AIME, ohne spezifisches Training für diese Aufgaben.
English
Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.
PDF122September 30, 2025