TeleMath: Um Benchmark para Modelos de Linguagem de Grande Escala na Resolução de Problemas Matemáticos de Telecomunicações
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving
June 12, 2025
Autores: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI
Resumo
A crescente adoção da inteligência artificial nas telecomunicações tem despertado interesse na capacidade dos Modelos de Linguagem de Grande Escala (LLMs) para lidar com tarefas específicas do domínio e intensivas em matemática. Embora avanços recentes tenham melhorado o desempenho dos LLMs no raciocínio matemático geral, sua eficácia em domínios especializados, como processamento de sinais, otimização de redes e análise de desempenho, permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o TeleMath, o primeiro conjunto de dados de referência especificamente projetado para avaliar o desempenho de LLMs na resolução de problemas matemáticos com soluções numéricas no domínio das telecomunicações. Composto por 500 pares de perguntas e respostas (QnA), o TeleMath abrange uma ampla gama de tópicos no campo das telecomunicações. Este artigo descreve o pipeline proposto para a geração de QnAs, começando com uma seleção de problemas elaborados por Especialistas no Assunto. A avaliação de uma ampla gama de LLMs de código aberto revela que o melhor desempenho no TeleMath é alcançado por modelos recentes explicitamente projetados para raciocínio matemático ou lógico. Em contraste, modelos de propósito geral, mesmo aqueles com um grande número de parâmetros, frequentemente enfrentam dificuldades com esses desafios. Disponibilizamos o conjunto de dados e o código de avaliação para facilitar a reprodutibilidade dos resultados e apoiar pesquisas futuras.
English
The increasing adoption of artificial intelligence in telecommunications has
raised interest in the capability of Large Language Models (LLMs) to address
domain-specific, mathematically intensive tasks. Although recent advancements
have improved the performance of LLMs in general mathematical reasoning, their
effectiveness within specialized domains, such as signal processing, network
optimization, and performance analysis, remains largely unexplored. To address
this gap, we introduce TeleMath, the first benchmark dataset specifically
designed to evaluate LLM performance in solving mathematical problems with
numerical solutions in the telecommunications domain. Comprising 500
question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the
telecommunications field. This paper outlines the proposed QnAs generation
pipeline, starting from a selected seed of problems crafted by Subject Matter
Experts. The evaluation of a wide range of open-source LLMs reveals that best
performance on TeleMath is achieved by recent models explicitly designed for
mathematical or logical reasoning. In contrast, general-purpose models, even
those with a large number of parameters, often struggle with these challenges.
We have released the dataset and the evaluation code to ease result
reproducibility and support future research.