LLMalMorph: Zur Machbarkeit der Erzeugung von Malware-Varianten mithilfe von Large-Language-Models
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
papers.authors: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben die Softwareentwicklung und die automatisierte Codegenerierung revolutioniert. Angespornt durch diese Fortschritte untersucht dieses Papier die Machbarkeit von LLMs bei der Modifikation von Malware-Quellcode zur Erzeugung von Varianten. Wir stellen LLMalMorph vor, ein halbautomatisiertes Framework, das semantisches und syntaktisches Codeverständnis durch LLMs nutzt, um neue Malware-Varianten zu generieren. LLMalMorph extrahiert funktionale Informationen aus dem Malware-Quellcode und verwendet speziell entwickelte Prompts in Kombination mit strategisch definierten Code-Transformationen, um das LLM bei der Generierung von Varianten ohne ressourcenintensives Fine-Tuning zu leiten. Zur Bewertung von LLMalMorph sammelten wir 10 diverse Windows-Malware-Proben unterschiedlicher Typen, Komplexität und Funktionalität und erzeugten 618 Varianten. Unsere umfassenden Experimente zeigen, dass es möglich ist, die Erkennungsraten von Antiviren-Engines für diese Malware-Varianten bis zu einem gewissen Grad zu reduzieren, während die Malware-Funktionalitäten erhalten bleiben. Darüber hinaus erreichten mehrere Varianten, obwohl sie nicht gegen maschinelles Lernen (ML) basierte Malware-Erkennungssysteme optimiert wurden, bemerkenswerte Angriffserfolgsraten gegen einen ML-basierten Malware-Klassifikator. Wir diskutieren auch die Grenzen der aktuellen LLM-Fähigkeiten bei der Generierung von Malware-Varianten aus Quellcode und bewerten, wo diese aufstrebende Technologie im weiteren Kontext der Malware-Variantengenerierung steht.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.