WirelessMathLM : Enseignement du raisonnement mathématique pour les LLM dans les communications sans fil avec apprentissage par renforcement
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
papers.authors: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) excellent en raisonnement mathématique général mais échouent de manière catastrophique sur les mathématiques techniques spécialisées. Dans le domaine des communications sans fil, où les problèmes nécessitent une manipulation précise des bornes de la théorie de l'information, des contraintes d'optimisation et des formulations de traitement du signal, même les modèles les plus avancés peinent à atteindre une performance compétente. Nous présentons WirelessMathLM, démontrant que des modèles compacts (0,5B à 7B paramètres) peuvent égaler ou surpasser des modèles beaucoup plus grands grâce à un apprentissage par renforcement spécifique au domaine avec des récompenses vérifiables. Notre idée clé est que les problèmes de mathématiques des communications sans fil possèdent une propriété unique—la vérifiabilité de la correction—qui permet un apprentissage par renforcement efficace sans retour humain. Nous construisons WirelessMathBench-XL, un benchmark complet de 4 027 problèmes issus de 970 articles. En utilisant l'optimisation de politique relative par groupe (GRPO) avec des récompenses de vérification binaires, nous entraînons les modèles directement à partir de points de contrôle de base sans amorçage supervisé. Notre modèle de 7B atteint une précision de 39,5 % sur WirelessMathBench-XL, approchant celle de GPT-4o (40,4 %) tout en utilisant environ 100 fois moins de paramètres que DeepSeek-R1 (671B, 57,4 %). Remarquablement, l'entraînement GRPO double presque la performance à toutes les échelles de modèles (0,5B +11 %, 3B +103 %, 7B +81 %), avec un transfert positif vers les benchmarks de mathématiques générales—nos modèles gagnent en moyenne +8,4 points sur MATH, Minerva-Math, OlympiadBench, AMC et AIME sans aucun entraînement sur ces tâches.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.