ChatPaper.aiChatPaper

TeleMath: 通信分野における数学的問題解決のための大規模言語モデルベンチマーク

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
著者: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

要旨

人工知能の通信分野における採用が増加する中、大規模言語モデル(LLMs)がドメイン固有の数学的タスクに対処する能力に対する関心が高まっている。近年の進歩により、LLMsの一般的な数学的推論能力は向上しているものの、信号処理、ネットワーク最適化、性能解析などの専門領域における有効性はほとんど検証されていない。このギャップを埋めるため、我々はTeleMathを導入する。これは、通信分野における数値解法を伴う数学的問題を解決するためのLLMの性能を評価するために特別に設計された最初のベンチマークデータセットである。500の質問-回答(QnA)ペアから構成されるTeleMathは、通信分野の幅広いトピックをカバーしている。本論文では、専門家によって作成された問題の種を基にしたQnA生成パイプラインを提案する。オープンソースのLLMsの広範な評価により、TeleMathで最高の性能を発揮するのは、数学的または論理的推論に特化して設計された最新のモデルであることが明らかになった。一方で、汎用モデル、特にパラメータ数が多いモデルでも、これらの課題に対処するのに苦戦することが多い。結果の再現性を容易にし、将来の研究を支援するため、データセットと評価コードを公開した。
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025