ChatPaper.aiChatPaper

TeleMath: 통신 수학 문제 해결을 위한 대형 언어 모델 벤치마크

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
저자: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

초록

통신 분야에서 인공지능의 도입이 증가함에 따라, 대형 언어 모델(LLM)이 도메인 특화적이고 수학적으로 복잡한 과제를 해결할 수 있는 능력에 대한 관심이 높아지고 있다. 최근의 발전으로 인해 LLM의 일반적인 수학적 추론 성능은 향상되었지만, 신호 처리, 네트워크 최적화, 성능 분석과 같은 특화된 분야에서의 효과성은 여전히 크게 탐구되지 않고 있다. 이러한 격차를 해결하기 위해, 우리는 통신 분야에서 수치적 해법을 요구하는 수학적 문제를 해결하는 LLM의 성능을 평가하기 위해 특별히 설계된 첫 번째 벤치마크 데이터셋인 TeleMath를 소개한다. 500개의 질문-답변(QnA) 쌍으로 구성된 TeleMath는 통신 분야의 다양한 주제를 포괄한다. 본 논문은 주제 전문가가 제작한 문제 씨앗에서 시작하여 제안된 QnA 생성 파이프라인을 개괄한다. 다양한 오픈소스 LLM의 평가 결과, 수학적 또는 논리적 추론을 위해 명시적으로 설계된 최신 모델들이 TeleMath에서 최고의 성능을 달성한 반면, 대규모 매개변수를 가진 일반 목적 모델들은 이러한 도전에 종종 어려움을 겪는 것으로 나타났다. 우리는 결과의 재현성을 용이하게 하고 향후 연구를 지원하기 위해 데이터셋과 평가 코드를 공개하였다.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025