TeleMath: Бенчмарк для крупных языковых моделей в решении математических задач в телекоммуникациях
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving
June 12, 2025
Авторы: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI
Аннотация
Растущее внедрение искусственного интеллекта в телекоммуникациях вызвало интерес к способности крупных языковых моделей (LLM) решать специализированные, математически сложные задачи. Хотя последние достижения улучшили производительность LLM в общих математических рассуждениях, их эффективность в узкоспециализированных областях, таких как обработка сигналов, оптимизация сетей и анализ производительности, остается в значительной степени неисследованной. Для устранения этого пробела мы представляем TeleMath — первый эталонный набор данных, специально разработанный для оценки производительности LLM в решении математических задач с численными решениями в области телекоммуникаций. TeleMath включает 500 пар вопрос-ответ (QnA), охватывающих широкий спектр тем в телекоммуникационной сфере. В данной статье описывается предложенный процесс генерации QnA, начиная с отобранного набора задач, созданных экспертами в предметной области. Оценка широкого спектра открытых LLM показывает, что наилучшие результаты на TeleMath демонстрируют недавние модели, специально разработанные для математических или логических рассуждений. В то же время универсальные модели, даже с большим количеством параметров, часто испытывают трудности с этими задачами. Мы опубликовали набор данных и код для оценки, чтобы упростить воспроизводимость результатов и поддержать будущие исследования.
English
The increasing adoption of artificial intelligence in telecommunications has
raised interest in the capability of Large Language Models (LLMs) to address
domain-specific, mathematically intensive tasks. Although recent advancements
have improved the performance of LLMs in general mathematical reasoning, their
effectiveness within specialized domains, such as signal processing, network
optimization, and performance analysis, remains largely unexplored. To address
this gap, we introduce TeleMath, the first benchmark dataset specifically
designed to evaluate LLM performance in solving mathematical problems with
numerical solutions in the telecommunications domain. Comprising 500
question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the
telecommunications field. This paper outlines the proposed QnAs generation
pipeline, starting from a selected seed of problems crafted by Subject Matter
Experts. The evaluation of a wide range of open-source LLMs reveals that best
performance on TeleMath is achieved by recent models explicitly designed for
mathematical or logical reasoning. In contrast, general-purpose models, even
those with a large number of parameters, often struggle with these challenges.
We have released the dataset and the evaluation code to ease result
reproducibility and support future research.