ChatPaper.aiChatPaper

TeleMath: Un Benchmark per i Modelli Linguistici di Grandi Dimensioni nella Risoluzione di Problemi Matematici nel Settore delle Telecomunicazioni

TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving

June 12, 2025
Autori: Vincenzo Colle, Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Merouane Debbah
cs.AI

Abstract

La crescente adozione dell'intelligenza artificiale nel settore delle telecomunicazioni ha suscitato interesse riguardo alla capacità dei Modelli Linguistici di Grande Dimensione (LLM) di affrontare compiti specifici del dominio e ad alta intensità matematica. Sebbene i recenti progressi abbiano migliorato le prestazioni degli LLM nel ragionamento matematico generale, la loro efficacia all'interno di domini specializzati, come l'elaborazione dei segnali, l'ottimizzazione delle reti e l'analisi delle prestazioni, rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo TeleMath, il primo dataset di benchmark specificamente progettato per valutare le prestazioni degli LLM nella risoluzione di problemi matematici con soluzioni numeriche nel dominio delle telecomunicazioni. Composto da 500 coppie domanda-risposta (QnA), TeleMath copre un ampio spettro di argomenti nel campo delle telecomunicazioni. Questo articolo descrive la pipeline proposta per la generazione delle QnA, a partire da un insieme selezionato di problemi creati da esperti del settore. La valutazione di una vasta gamma di LLM open-source rivela che le migliori prestazioni su TeleMath sono ottenute da modelli recenti progettati esplicitamente per il ragionamento matematico o logico. Al contrario, i modelli generici, anche quelli con un numero elevato di parametri, spesso incontrano difficoltà con queste sfide. Abbiamo rilasciato il dataset e il codice di valutazione per facilitare la riproducibilità dei risultati e supportare la ricerca futura.
English
The increasing adoption of artificial intelligence in telecommunications has raised interest in the capability of Large Language Models (LLMs) to address domain-specific, mathematically intensive tasks. Although recent advancements have improved the performance of LLMs in general mathematical reasoning, their effectiveness within specialized domains, such as signal processing, network optimization, and performance analysis, remains largely unexplored. To address this gap, we introduce TeleMath, the first benchmark dataset specifically designed to evaluate LLM performance in solving mathematical problems with numerical solutions in the telecommunications domain. Comprising 500 question-answer (QnA) pairs, TeleMath covers a wide spectrum of topics in the telecommunications field. This paper outlines the proposed QnAs generation pipeline, starting from a selected seed of problems crafted by Subject Matter Experts. The evaluation of a wide range of open-source LLMs reveals that best performance on TeleMath is achieved by recent models explicitly designed for mathematical or logical reasoning. In contrast, general-purpose models, even those with a large number of parameters, often struggle with these challenges. We have released the dataset and the evaluation code to ease result reproducibility and support future research.
PDF32June 13, 2025