LLMalMorph: Sulla Fattibilità della Generazione di Varianti di Malware Utilizzando Modelli Linguistici di Grande Dimensione
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
Autori: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
Abstract
I Large Language Model (LLM) hanno rivoluzionato lo sviluppo del software e la generazione automatizzata di codice. Spinti da questi progressi, questo articolo esplora la fattibilità dell'utilizzo degli LLM per modificare il codice sorgente di malware e generare varianti. Introduciamo LLMalMorph, un framework semi-automatizzato che sfrutta la comprensione semantica e sintattica del codice da parte degli LLM per generare nuove varianti di malware. LLMalMorph estrae informazioni a livello di funzione dal codice sorgente del malware e utilizza prompt progettati su misura, combinati con trasformazioni di codice definite strategicamente, per guidare l'LLM nella generazione di varianti senza la necessità di un fine-tuning ad alta intensità di risorse. Per valutare LLMalMorph, abbiamo raccolto 10 campioni di malware Windows di diverso tipo, complessità e funzionalità e generato 618 varianti. I nostri esperimenti approfonditi dimostrano che è possibile ridurre, in una certa misura, i tassi di rilevamento dei motori antivirus di queste varianti di malware preservandone le funzionalità. Inoltre, pur non essendo ottimizzati contro alcun rilevatore di malware basato su Machine Learning (ML), diverse varianti hanno ottenuto tassi di successo significativi contro un classificatore di malware basato su ML. Discutiamo anche i limiti delle attuali capacità degli LLM nella generazione di varianti di malware a partire dal codice sorgente e valutiamo dove si colloca questa tecnologia emergente nel contesto più ampio della generazione di varianti di malware.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.