ChatPaper.aiChatPaper

TeleMath : Un benchmark pour les modèles de langage de grande taille dans la résolution de problèmes mathématiques en télécommunications

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
Auteurs: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

Résumé

L'adoption croissante de l'intelligence artificielle dans les télécommunications a suscité un intérêt pour la capacité des modèles de langage de grande taille (LLMs) à traiter des tâches spécifiques à un domaine et intensives en calculs mathématiques. Bien que les avancées récentes aient amélioré les performances des LLMs en raisonnement mathématique général, leur efficacité dans des domaines spécialisés, tels que le traitement du signal, l'optimisation des réseaux et l'analyse de performance, reste largement inexplorée. Pour combler cette lacune, nous présentons TeleMath, le premier ensemble de données de référence spécifiquement conçu pour évaluer les performances des LLMs dans la résolution de problèmes mathématiques avec des solutions numériques dans le domaine des télécommunications. Composé de 500 paires question-réponse (QnA), TeleMath couvre un large éventail de sujets dans le domaine des télécommunications. Cet article décrit le pipeline proposé pour la génération des QnA, en partant d'une sélection de problèmes élaborés par des experts en la matière. L'évaluation d'une large gamme de LLMs open-source révèle que les meilleures performances sur TeleMath sont obtenues par des modèles récents explicitement conçus pour le raisonnement mathématique ou logique. En revanche, les modèles généralistes, même ceux dotés d'un grand nombre de paramètres, peinent souvent à relever ces défis. Nous avons rendu public l'ensemble de données et le code d'évaluation pour faciliter la reproductibilité des résultats et soutenir les recherches futures.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025