ChatPaper.aiChatPaper

TeleMath: Um Benchmark para Modelos de Linguagem de Grande Escala na Resolução de Problemas Matemáticos de Telecomunicações

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
Autores: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

Resumo

A crescente adoção da inteligência artificial nas telecomunicações tem despertado interesse na capacidade dos Modelos de Linguagem de Grande Escala (LLMs) para lidar com tarefas específicas do domínio e intensivas em matemática. Embora avanços recentes tenham melhorado o desempenho dos LLMs no raciocínio matemático geral, sua eficácia em domínios especializados, como processamento de sinais, otimização de redes e análise de desempenho, permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o TeleMath, o primeiro conjunto de dados de referência especificamente projetado para avaliar o desempenho de LLMs na resolução de problemas matemáticos com soluções numéricas no domínio das telecomunicações. Composto por 500 pares de perguntas e respostas (QnA), o TeleMath abrange uma ampla gama de tópicos no campo das telecomunicações. Este artigo descreve o pipeline proposto para a geração de QnAs, começando com uma seleção de problemas elaborados por Especialistas no Assunto. A avaliação de uma ampla gama de LLMs de código aberto revela que o melhor desempenho no TeleMath é alcançado por modelos recentes explicitamente projetados para raciocínio matemático ou lógico. Em contraste, modelos de propósito geral, mesmo aqueles com um grande número de parâmetros, frequentemente enfrentam dificuldades com esses desafios. Disponibilizamos o conjunto de dados e o código de avaliação para facilitar a reprodutibilidade dos resultados e apoiar pesquisas futuras.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025