ChatPaper.aiChatPaper

WirelessMathLM: Enseñanza del razonamiento matemático para modelos de lenguaje grandes en comunicaciones inalámbricas con aprendizaje por refuerzo

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

September 27, 2025
Autores: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en razonamiento matemático general, pero fracasan catastróficamente en matemáticas técnicas especializadas. En comunicaciones inalámbricas, donde los problemas requieren una manipulación precisa de límites teóricos de la información, restricciones de optimización y formulaciones de procesamiento de señales, incluso los modelos más avanzados luchan por alcanzar un desempeño competente. Presentamos WirelessMathLM, demostrando que modelos compactos (0.5B-7B parámetros) pueden igualar o superar a modelos mucho más grandes mediante aprendizaje por refuerzo específico del dominio con recompensas verificables. Nuestra idea clave es que los problemas de matemáticas inalámbricas poseen una propiedad única—la verificabilidad de la corrección—que permite un aprendizaje por refuerzo efectivo sin retroalimentación humana. Construimos WirelessMathBench-XL, un benchmark exhaustivo de 4,027 problemas extraídos de 970 artículos. Utilizando Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) con recompensas de verificación binaria, entrenamos modelos directamente desde puntos de control base sin un calentamiento supervisado. Nuestro modelo de 7B alcanza un 39.5% de precisión en WirelessMathBench-XL, acercándose a GPT-4o (40.4%) mientras utiliza aproximadamente 100 veces menos parámetros que DeepSeek-R1 (671B, 57.4%). Notablemente, el entrenamiento con GRPO casi duplica el rendimiento en todas las escalas de modelos (0.5B +11%, 3B +103%, 7B +81%), con transferencia positiva a benchmarks de matemáticas generales—nuestros modelos ganan +8.4 puntos en promedio en MATH, Minerva-Math, OlympiadBench, AMC y AIME sin ningún entrenamiento en estas tareas.
English
Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.
PDF122September 30, 2025