TeleMath: Un punto de referencia para modelos de lenguaje de gran escala en la resolución de problemas matemáticos de telecomunicaciones
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving
June 12, 2025
Autores: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI
Resumen
La creciente adopción de la inteligencia artificial en las telecomunicaciones ha despertado interés en la capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para abordar tareas específicas del dominio y de alta intensidad matemática. Aunque los avances recientes han mejorado el rendimiento de los LLMs en el razonamiento matemático general, su efectividad dentro de dominios especializados, como el procesamiento de señales, la optimización de redes y el análisis de rendimiento, sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos TeleMath, el primer conjunto de datos de referencia diseñado específicamente para evaluar el rendimiento de los LLMs en la resolución de problemas matemáticos con soluciones numéricas en el ámbito de las telecomunicaciones. Compuesto por 500 pares de preguntas y respuestas (QnA, por sus siglas en inglés), TeleMath abarca un amplio espectro de temas en el campo de las telecomunicaciones. Este artículo describe la pipeline propuesta para la generación de QnAs, comenzando con una selección inicial de problemas elaborados por expertos en la materia. La evaluación de una amplia gama de LLMs de código abierto revela que el mejor rendimiento en TeleMath lo logran modelos recientes diseñados explícitamente para el razonamiento matemático o lógico. En contraste, los modelos de propósito general, incluso aquellos con un gran número de parámetros, a menudo enfrentan dificultades con estos desafíos. Hemos liberado el conjunto de datos y el código de evaluación para facilitar la reproducibilidad de los resultados y apoyar investigaciones futuras.
English
The increasing adoption of artificial intelligence in telecommunications has
raised interest in the capability of Large Language Models (LLMs) to address
domain-specific, mathematically intensive tasks. Although recent advancements
have improved the performance of LLMs in general mathematical reasoning, their
effectiveness within specialized domains, such as signal processing, network
optimization, and performance analysis, remains largely unexplored. To address
this gap, we introduce TeleMath, the first benchmark dataset specifically
designed to evaluate LLM performance in solving mathematical problems with
numerical solutions in the telecommunications domain. Comprising 500
question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the
telecommunications field. This paper outlines the proposed QnAs generation
pipeline, starting from a selected seed of problems crafted by Subject Matter
Experts. The evaluation of a wide range of open-source LLMs reveals that best
performance on TeleMath is achieved by recent models explicitly designed for
mathematical or logical reasoning. In contrast, general-purpose models, even
those with a large number of parameters, often struggle with these challenges.
We have released the dataset and the evaluation code to ease result
reproducibility and support future research.