TeleMath: 通信分野における数学的問題解決のための大規模言語モデルベンチマーク
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving
June 12, 2025
著者: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI
要旨
人工知能の通信分野における採用が増加する中、大規模言語モデル(LLMs)がドメイン固有の数学的タスクに対処する能力に対する関心が高まっている。近年の進歩により、LLMsの一般的な数学的推論能力は向上しているものの、信号処理、ネットワーク最適化、性能解析などの専門領域における有効性はほとんど検証されていない。このギャップを埋めるため、我々はTeleMathを導入する。これは、通信分野における数値解法を伴う数学的問題を解決するためのLLMの性能を評価するために特別に設計された最初のベンチマークデータセットである。500の質問-回答(QnA)ペアから構成されるTeleMathは、通信分野の幅広いトピックをカバーしている。本論文では、専門家によって作成された問題の種を基にしたQnA生成パイプラインを提案する。オープンソースのLLMsの広範な評価により、TeleMathで最高の性能を発揮するのは、数学的または論理的推論に特化して設計された最新のモデルであることが明らかになった。一方で、汎用モデル、特にパラメータ数が多いモデルでも、これらの課題に対処するのに苦戦することが多い。結果の再現性を容易にし、将来の研究を支援するため、データセットと評価コードを公開した。
English
The increasing adoption of artificial intelligence in telecommunications has
raised interest in the capability of Large Language Models (LLMs) to address
domain-specific, mathematically intensive tasks. Although recent advancements
have improved the performance of LLMs in general mathematical reasoning, their
effectiveness within specialized domains, such as signal processing, network
optimization, and performance analysis, remains largely unexplored. To address
this gap, we introduce TeleMath, the first benchmark dataset specifically
designed to evaluate LLM performance in solving mathematical problems with
numerical solutions in the telecommunications domain. Comprising 500
question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the
telecommunications field. This paper outlines the proposed QnAs generation
pipeline, starting from a selected seed of problems crafted by Subject Matter
Experts. The evaluation of a wide range of open-source LLMs reveals that best
performance on TeleMath is achieved by recent models explicitly designed for
mathematical or logical reasoning. In contrast, general-purpose models, even
those with a large number of parameters, often struggle with these challenges.
We have released the dataset and the evaluation code to ease result
reproducibility and support future research.