LLMalMorph : Sur la faisabilité de générer des variantes de logiciels malveillants à l'aide de modèles de langage à grande échelle
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
papers.authors: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont transformé le développement logiciel et la génération automatisée de code. Motivés par ces avancées, cet article explore la faisabilité d'utiliser les LLMs pour modifier le code source de logiciels malveillants afin de générer des variantes. Nous présentons LLMalMorph, un cadre semi-automatisé qui exploite la compréhension sémantique et syntaxique du code par les LLMs pour générer de nouvelles variantes de logiciels malveillants. LLMalMorph extrait des informations au niveau des fonctions du code source du logiciel malveillant et utilise des invites personnalisées couplées à des transformations de code stratégiquement définies pour guider le LLM dans la génération de variantes sans nécessiter de réglage fin intensif en ressources. Pour évaluer LLMalMorph, nous avons collecté 10 échantillons divers de logiciels malveillants Windows de types, complexités et fonctionnalités variés et généré 618 variantes. Nos expériences approfondies démontrent qu'il est possible de réduire dans une certaine mesure les taux de détection des moteurs antivirus pour ces variantes tout en préservant les fonctionnalités malveillantes. De plus, bien que nous n'ayons pas optimisé contre aucun détecteur de logiciels malveillants basé sur l'apprentissage automatique (ML), plusieurs variantes ont également obtenu des taux de réussite d'attaque notables contre un classificateur de logiciels malveillants basé sur le ML. Nous discutons également des limites des capacités actuelles des LLMs dans la génération de variantes de logiciels malveillants à partir du code source et évaluons où se situe cette technologie émergente dans le contexte plus large de la génération de variantes de logiciels malveillants.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.