WirelessMathLM: Insegnare il Ragionamento Matematico per i Modelli Linguistici di Grande Dimensione nelle Comunicazioni Wireless con Apprendimento per Rinforzo
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
Autori: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono nel ragionamento matematico generale, ma falliscono in modo catastrofico sulla matematica tecnica specializzata. Nelle comunicazioni wireless, dove i problemi richiedono una manipolazione precisa di limiti teorici dell'informazione, vincoli di ottimizzazione e formulazioni di elaborazione del segnale, anche i modelli più avanzati faticano a raggiungere prestazioni competenti. Presentiamo WirelessMathLM, dimostrando che modelli compatti (0,5B-7B parametri) possono eguagliare o superare modelli molto più grandi attraverso l'apprendimento per rinforzo specifico per il dominio con ricompense verificabili. La nostra intuizione chiave è che i problemi di matematica wireless possiedono una proprietà unica—la correttezza verificabile—che consente un apprendimento per rinforzo efficace senza feedback umano. Costruiamo WirelessMathBench-XL, un benchmark completo di 4.027 problemi tratti da 970 articoli. Utilizzando l'ottimizzazione delle politiche relative al gruppo (GRPO) con ricompense di verifica binaria, addestriamo i modelli direttamente da checkpoint di base senza un avvio supervisionato. Il nostro modello da 7B raggiunge un'accuratezza del 39,5% su WirelessMathBench-XL, avvicinandosi a GPT-4o (40,4%) mentre utilizza circa 100 volte meno parametri rispetto a DeepSeek-R1 (671B, 57,4%). Notevolmente, l'addestramento con GRPO quasi raddoppia le prestazioni su tutte le scale di modelli (0,5B +11%, 3B +103%, 7B +81%), con un trasferimento positivo ai benchmark di matematica generale—i nostri modelli guadagnano +8,4 punti in media su MATH, Minerva-Math, OlympiadBench, AMC e AIME senza alcun addestramento su questi compiti.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.