TeleMath: Un punto de referencia para modelos de lenguaje de gran escala en la resolución de problemas matemáticos de telecomunicaciones

Resumen

La creciente adopción de la inteligencia artificial en las telecomunicaciones ha despertado interés en la capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para abordar tareas específicas del dominio y de alta intensidad matemática. Aunque los avances recientes han mejorado el rendimiento de los LLMs en el razonamiento matemático general, su efectividad dentro de dominios especializados, como el procesamiento de señales, la optimización de redes y el análisis de rendimiento, sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos TeleMath, el primer conjunto de datos de referencia diseñado específicamente para evaluar el rendimiento de los LLMs en la resolución de problemas matemáticos con soluciones numéricas en el ámbito de las telecomunicaciones. Compuesto por 500 pares de preguntas y respuestas (QnA, por sus siglas en inglés), TeleMath abarca un amplio espectro de temas en el campo de las telecomunicaciones. Este artículo describe la pipeline propuesta para la generación de QnAs, comenzando con una selección inicial de problemas elaborados por expertos en la materia. La evaluación de una amplia gama de LLMs de código abierto revela que el mejor rendimiento en TeleMath lo logran modelos recientes diseñados explícitamente para el razonamiento matemático o lógico. En contraste, los modelos de propósito general, incluso aquellos con un gran número de parámetros, a menudo enfrentan dificultades con estos desafíos. Hemos liberado el conjunto de datos y el código de evaluación para facilitar la reproducibilidad de los resultados y apoyar investigaciones futuras.

English

The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.

TeleMath: Un punto de referencia para modelos de lenguaje de gran escala en la resolución de problemas matemáticos de telecomunicaciones

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

Resumen

Support