WirelessMathLM: Обучение математическому мышлению для больших языковых моделей в беспроводной связи с использованием обучения с подкреплением

Аннотация

Крупные языковые модели (LLMs) демонстрируют высокие результаты в общих математических рассуждениях, но терпят катастрофические неудачи в специализированной технической математике. В области беспроводной связи, где задачи требуют точного манипулирования информационно-теоретическими границами, ограничениями оптимизации и формулировками обработки сигналов, даже самые передовые модели не могут достичь компетентного уровня. Мы представляем WirelessMathLM, показывая, что компактные модели (0.5B–7B параметров) могут сравниться или превзойти гораздо более крупные модели благодаря доменно-специфическому обучению с подкреплением с верифицируемыми наградами. Наше ключевое наблюдение заключается в том, что задачи в области беспроводной математики обладают уникальным свойством — верифицируемой корректностью, — что позволяет эффективно применять обучение с подкреплением без участия человека. Мы создаем WirelessMathBench-XL, комплексный бенчмарк из 4,027 задач, взятых из 970 научных статей. Используя Group Relative Policy Optimization (GRPO) с бинарными верификационными наградами, мы обучаем модели напрямую из базовых контрольных точек без предварительного обучения с учителем. Наша модель с 7B параметров достигает точности 39.5% на WirelessMathBench-XL, приближаясь к GPT-4o (40.4%), при этом используя примерно в 100 раз меньше параметров, чем DeepSeek-R1 (671B, 57.4%). Примечательно, что обучение с GRPO почти удваивает производительность на всех масштабах моделей (0.5B +11%, 3B +103%, 7B +81%), с положительным переносом на общие математические бенчмарки — наши модели улучшают результаты в среднем на +8.4 балла на MATH, Minerva-Math, OlympiadBench, AMC и AIME без какого-либо обучения на этих задачах.

English

Large language models (LLMs) excel at general mathematical reasoning but fail catastrophically on specialized technical mathematics. In wireless communications, where problems require precise manipulation of information-theoretic bounds, optimization constraints, and signal processing formulations, even state-of-the-art models struggle to achieve competent performance. We present WirelessMathLM, demonstrating that compact models (0.5B-7B parameters) can match or exceed much larger models through domain-specific reinforcement learning with verifiable rewards. Our key insight is that wireless mathematics problems possess a unique property--verifiable correctness--that enables effective reinforcement learning without human feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027 problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with binary verification rewards, we train models directly from base checkpoints without supervised warm-start. Our 7B model achieves 39.5% accuracy on WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B +81%), with positive transfer to general mathematics benchmarks--our models gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and AIME without any training on these tasks.

WirelessMathLM: Обучение математическому мышлению для больших языковых моделей в беспроводной связи с использованием обучения с подкреплением

WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning

Аннотация

Support