WirelessMathLM: Обучение математическому мышлению для больших языковых моделей в беспроводной связи с использованием обучения с подкреплением
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
Авторы: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
Аннотация
Крупные языковые модели (LLMs) демонстрируют высокие результаты в общих математических рассуждениях, но терпят катастрофические неудачи в специализированной технической математике. В области беспроводной связи, где задачи требуют точного манипулирования информационно-теоретическими границами, ограничениями оптимизации и формулировками обработки сигналов, даже самые передовые модели не могут достичь компетентного уровня. Мы представляем WirelessMathLM, показывая, что компактные модели (0.5B–7B параметров) могут сравниться или превзойти гораздо более крупные модели благодаря доменно-специфическому обучению с подкреплением с верифицируемыми наградами. Наше ключевое наблюдение заключается в том, что задачи в области беспроводной математики обладают уникальным свойством — верифицируемой корректностью, — что позволяет эффективно применять обучение с подкреплением без участия человека. Мы создаем WirelessMathBench-XL, комплексный бенчмарк из 4,027 задач, взятых из 970 научных статей. Используя Group Relative Policy Optimization (GRPO) с бинарными верификационными наградами, мы обучаем модели напрямую из базовых контрольных точек без предварительного обучения с учителем. Наша модель с 7B параметров достигает точности 39.5% на WirelessMathBench-XL, приближаясь к GPT-4o (40.4%), при этом используя примерно в 100 раз меньше параметров, чем DeepSeek-R1 (671B, 57.4%). Примечательно, что обучение с GRPO почти удваивает производительность на всех масштабах моделей (0.5B +11%, 3B +103%, 7B +81%), с положительным переносом на общие математические бенчмарки — наши модели улучшают результаты в среднем на +8.4 балла на MATH, Minerva-Math, OlympiadBench, AMC и AIME без какого-либо обучения на этих задачах.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.