WirelessMathLM : Enseignement du raisonnement mathématique pour les LLM dans les communications sans fil avec apprentissage par renforcement

papers.abstract

Les grands modèles de langage (LLMs) excellent en raisonnement mathématique général mais échouent de manière catastrophique sur les mathématiques techniques spécialisées. Dans le domaine des communications sans fil, où les problèmes nécessitent une manipulation précise des bornes de la théorie de l'information, des contraintes d'optimisation et des formulations de traitement du signal, même les modèles les plus avancés peinent à atteindre une performance compétente. Nous présentons WirelessMathLM, démontrant que des modèles compacts (0,5B à 7B paramètres) peuvent égaler ou surpasser des modèles beaucoup plus grands grâce à un apprentissage par renforcement spécifique au domaine avec des récompenses vérifiables. Notre idée clé est que les problèmes de mathématiques des communications sans fil possèdent une propriété unique—la vérifiabilité de la correction—qui permet un apprentissage par renforcement efficace sans retour humain. Nous construisons WirelessMathBench-XL, un benchmark complet de 4 027 problèmes issus de 970 articles. En utilisant l'optimisation de politique relative par groupe (GRPO) avec des récompenses de vérification binaires, nous entraînons les modèles directement à partir de points de contrôle de base sans amorçage supervisé. Notre modèle de 7B atteint une précision de 39,5 % sur WirelessMathBench-XL, approchant celle de GPT-4o (40,4 %) tout en utilisant environ 100 fois moins de paramètres que DeepSeek-R1 (671B, 57,4 %). Remarquablement, l'entraînement GRPO double presque la performance à toutes les échelles de modèles (0,5B +11 %, 3B +103 %, 7B +81 %), avec un transfert positif vers les benchmarks de mathématiques générales—nos modèles gagnent en moyenne +8,4 points sur MATH, Minerva-Math, OlympiadBench, AMC et AIME sans aucun entraînement sur ces tâches.

English

Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.

WirelessMathLM : Enseignement du raisonnement mathématique pour les LLM dans les communications sans fil avec apprentissage par renforcement

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

papers.abstract

Support