ChatPaper.aiChatPaper

TeleMath: Ein Benchmark für große Sprachmodelle in der Lösung mathematischer Probleme der Telekommunikation

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
Autoren: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

Zusammenfassung

Die zunehmende Einführung von künstlicher Intelligenz in der Telekommunikation hat das Interesse an der Fähigkeit von Large Language Models (LLMs) geweckt, domänenspezifische, mathematisch anspruchsvolle Aufgaben zu bewältigen. Obwohl jüngste Fortschritte die Leistung von LLMs im Bereich des allgemeinen mathematischen Denkens verbessert haben, bleibt ihre Effektivität in spezialisierten Domänen wie Signalverarbeitung, Netzwerkoptimierung und Leistungsanalyse weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir TeleMath vor, den ersten Benchmark-Datensatz, der speziell entwickelt wurde, um die Leistung von LLMs bei der Lösung mathematischer Probleme mit numerischen Lösungen im Bereich der Telekommunikation zu bewerten. TeleMath umfasst 500 Frage-Antwort-Paare (QnA) und deckt ein breites Spektrum von Themen im Telekommunikationsbereich ab. Dieses Papier skizziert den vorgeschlagenen QnA-Generierungsprozess, beginnend mit einem ausgewählten Ausgangspunkt von Problemen, die von Fachexperten erstellt wurden. Die Bewertung einer Vielzahl von Open-Source-LLMs zeigt, dass die beste Leistung auf TeleMath von neueren Modellen erzielt wird, die explizit für mathematisches oder logisches Denken entwickelt wurden. Im Gegensatz dazu haben allgemeine Modelle, selbst solche mit einer großen Anzahl von Parametern, oft Schwierigkeiten mit diesen Herausforderungen. Wir haben den Datensatz und den Evaluationscode veröffentlicht, um die Reproduzierbarkeit der Ergebnisse zu erleichtern und zukünftige Forschung zu unterstützen.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025