WirelessMathLM: 강화 학습을 활용한 무선 통신 분야에서의 대형 언어 모델 수학적 추론 교육
WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning
September 27, 2025
저자: Xin Li, Mengbing Liu, Yiyang Zhu, Wenhe Zhang, Li Wei, Jiancheng An, Chau Yuen
cs.AI
초록
대형 언어 모델(LLMs)은 일반적인 수학적 추론에서는 뛰어난 성능을 보이지만, 전문적인 기술 수학에서는 심각한 실패를 보입니다. 무선 통신 분야에서는 정보 이론적 한계, 최적화 제약 조건, 신호 처리 공식 등을 정밀하게 다뤄야 하는 문제들이 있어, 최첨단 모델들조차도 유능한 성능을 달성하기 어렵습니다. 우리는 WirelessMathLM을 제시하며, 도메인 특화적 강화 학습과 검증 가능한 보상을 통해 소규모 모델(0.5B-7B 매개변수)이 훨씬 더 큰 모델을 능가하거나 동등한 성능을 낼 수 있음을 보여줍니다. 우리의 핵심 통찰은 무선 수학 문제가 '검증 가능한 정확성'이라는 독특한 속성을 가지고 있어, 인간의 피드백 없이도 효과적인 강화 학습이 가능하다는 것입니다. 우리는 970편의 논문에서 추출한 4,027개의 문제로 구성된 포괄적인 벤치마크인 WirelessMathBench-XL을 구축했습니다. 이진 검증 보상을 사용한 그룹 상대 정책 최적화(GRPO)를 통해, 우리는 지도 학습 없이 기본 체크포인트에서 직접 모델을 훈련시켰습니다. 우리의 7B 모델은 WirelessMathBench-XL에서 39.5%의 정확도를 달성하며, GPT-4o(40.4%)에 근접하는 성능을 보이면서도 DeepSeek-R1(671B, 57.4%)보다 약 100배 적은 매개변수를 사용합니다. 특히, GRPO 훈련은 모든 모델 규모에서 성능을 거의 두 배로 향상시켰으며(0.5B +11%, 3B +103%, 7B +81%), 일반 수학 벤치마크로의 긍정적 전이도 관찰되었습니다. 우리의 모델은 MATH, Minerva-Math, OlympiadBench, AMC, AIME 등의 작업에 대한 훈련 없이도 평균 +8.4점의 성능 향상을 보였습니다.
English
Large language models (LLMs) excel at general mathematical reasoning but fail
catastrophically on specialized technical mathematics. In wireless
communications, where problems require precise manipulation of
information-theoretic bounds, optimization constraints, and signal processing
formulations, even state-of-the-art models struggle to achieve competent
performance. We present WirelessMathLM, demonstrating that compact models
(0.5B-7B parameters) can match or exceed much larger models through
domain-specific reinforcement learning with verifiable rewards. Our key insight
is that wireless mathematics problems possess a unique property--verifiable
correctness--that enables effective reinforcement learning without human
feedback. We construct WirelessMathBench-XL, a comprehensive benchmark of 4,027
problems from 970 papers. Using Group Relative Policy Optimization (GRPO) with
binary verification rewards, we train models directly from base checkpoints
without supervised warm-start. Our 7B model achieves 39.5% accuracy on
WirelessMathBench-XL, approaching GPT-4o (40.4%) while using about 100 times
fewer parameters than DeepSeek-R1 (671B, 57.4%). Remarkably, GRPO training
nearly doubles performance across all model scales (0.5B +11%, 3B +103%, 7B
+81%), with positive transfer to general mathematics benchmarks--our models
gain +8.4 points on average across MATH, Minerva-Math, OlympiadBench, AMC, and
AIME without any training on these tasks.