WirelessMathLM: Insegnare il Ragionamento Matematico per i Modelli Linguistici di Grande Dimensione nelle Comunicazioni Wireless con Apprendimento per Rinforzo

Abstract

I grandi modelli linguistici (LLM) eccellono nel ragionamento matematico generale, ma falliscono in modo catastrofico sulla matematica tecnica specializzata. Nelle comunicazioni wireless, dove i problemi richiedono una manipolazione precisa di limiti teorici dell'informazione, vincoli di ottimizzazione e formulazioni di elaborazione del segnale, anche i modelli più avanzati faticano a raggiungere prestazioni competenti. Presentiamo WirelessMathLM, dimostrando che modelli compatti (0,5B-7B parametri) possono eguagliare o superare modelli molto più grandi attraverso l'apprendimento per rinforzo specifico per il dominio con ricompense verificabili. La nostra intuizione chiave è che i problemi di matematica wireless possiedono una proprietà unica—la correttezza verificabile—che consente un apprendimento per rinforzo efficace senza feedback umano. Costruiamo WirelessMathBench-XL, un benchmark completo di 4.027 problemi tratti da 970 articoli. Utilizzando l'ottimizzazione delle politiche relative al gruppo (GRPO) con ricompense di verifica binaria, addestriamo i modelli direttamente da checkpoint di base senza un avvio supervisionato. Il nostro modello da 7B raggiunge un'accuratezza del 39,5% su WirelessMathBench-XL, avvicinandosi a GPT-4o (40,4%) mentre utilizza circa 100 volte meno parametri rispetto a DeepSeek-R1 (671B, 57,4%). Notevolmente, l'addestramento con GRPO quasi raddoppia le prestazioni su tutte le scale di modelli (0,5B +11%, 3B +103%, 7B +81%), con un trasferimento positivo ai benchmark di matematica generale—i nostri modelli guadagnano +8,4 punti in media su MATH, Minerva-Math, OlympiadBench, AMC e AIME senza alcun addestramento su questi compiti.

English

Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.

WirelessMathLM: Insegnare il Ragionamento Matematico per i Modelli Linguistici di Grande Dimensione nelle Comunicazioni Wireless con Apprendimento per Rinforzo

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

Abstract

Support