LLMalMorph: Sobre a Viabilidade de Gerar Malwares Variantes Usando Modelos de Linguagem de Grande Escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
Autores: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o desenvolvimento de software e a geração automatizada de código. Motivados por esses avanços, este artigo explora a viabilidade do uso de LLMs para modificar o código-fonte de malware e gerar variantes. Apresentamos o LLMalMorph, um framework semiautomatizado que aproveita a compreensão semântica e sintática de código por LLMs para gerar novas variantes de malware. O LLMalMorph extrai informações em nível de função do código-fonte do malware e emprega prompts personalizados, combinados com transformações de código estrategicamente definidas, para orientar o LLM na geração de variantes sem a necessidade de ajuste fino intensivo em recursos. Para avaliar o LLMalMorph, coletamos 10 amostras diversas de malware para Windows, variando em tipo, complexidade e funcionalidade, e geramos 618 variantes. Nossos experimentos detalhados demonstram que é possível reduzir, em certa medida, as taxas de detecção dessas variantes de malware pelos mecanismos antivírus, preservando as funcionalidades do malware. Além disso, apesar de não otimizar contra nenhum detector de malware baseado em Aprendizado de Máquina (ML), várias variantes também alcançaram taxas de sucesso notáveis contra um classificador de malware baseado em ML. Também discutimos as limitações atuais das capacidades dos LLMs na geração de variantes de malware a partir do código-fonte e avaliamos onde essa tecnologia emergente se posiciona no contexto mais amplo da geração de variantes de malware.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.