ChatPaper.aiChatPaper

TeleMath: Een Benchmark voor Grote Taalmodellen in het Oplossen van Wiskundige Problemen in de Telecomsector

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
Auteurs: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

Samenvatting

De toenemende adoptie van kunstmatige intelligentie in de telecommunicatie heeft de interesse gewekt in de mogelijkheden van Large Language Models (LLMs) om domeinspecifieke, wiskundig intensieve taken aan te pakken. Hoewel recente vooruitgang de prestaties van LLMs in algemeen wiskundig redeneren heeft verbeterd, blijft hun effectiviteit binnen gespecialiseerde domeinen, zoals signaalverwerking, netwerkoptimalisatie en prestatieanalyse, grotendeels onontgonnen. Om dit hiaat te dichten, introduceren we TeleMath, de eerste benchmarkdataset die specifiek is ontworpen om de prestaties van LLMs te evalueren bij het oplossen van wiskundige problemen met numerieke oplossingen in het telecommunicatiedomein. Bestaande uit 500 vraag-antwoordparen (QnA), bestrijkt TeleMath een breed scala aan onderwerpen binnen het telecommunicatieveld. Dit artikel beschrijft de voorgestelde QnA-generatiepijplijn, beginnend bij een geselecteerde set problemen die zijn opgesteld door vakdeskundigen. De evaluatie van een breed scala aan open-source LLMs laat zien dat de beste prestaties op TeleMath worden behaald door recente modellen die expliciet zijn ontworpen voor wiskundig of logisch redeneren. Daarentegen worstelen algemene modellen, zelfs die met een groot aantal parameters, vaak met deze uitdagingen. We hebben de dataset en de evaluatiecode vrijgegeven om de reproduceerbaarheid van resultaten te vergemakkelijken en toekomstig onderzoek te ondersteunen.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025