LLMalMorph: Sobre la viabilidad de generar variantes de malware utilizando modelos de lenguaje de gran escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
Autores: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el desarrollo de software y la generación automatizada de código. Motivados por estos avances, este artículo explora la viabilidad de utilizar LLMs para modificar el código fuente de malware y generar variantes. Presentamos LLMalMorph, un marco semiautomatizado que aprovecha la comprensión semántica y sintáctica del código por parte de los LLMs para generar nuevas variantes de malware. LLMalMorph extrae información a nivel de función del código fuente del malware y emplea indicaciones personalizadas junto con transformaciones de código definidas estratégicamente para guiar al LLM en la generación de variantes sin necesidad de un ajuste fino intensivo en recursos. Para evaluar LLMalMorph, recopilamos 10 muestras diversas de malware para Windows de distintos tipos, complejidades y funcionalidades, y generamos 618 variantes. Nuestros exhaustivos experimentos demuestran que es posible reducir en cierta medida las tasas de detección de los motores antivirus de estas variantes de malware, manteniendo las funcionalidades del malware. Además, a pesar de no optimizar contra ningún detector de malware basado en Aprendizaje Automático (ML, por sus siglas en inglés), varias variantes también lograron tasas de éxito notables contra un clasificador de malware basado en ML. También discutimos las limitaciones actuales de las capacidades de los LLMs para generar variantes de malware a partir del código fuente y evaluamos el lugar que ocupa esta tecnología emergente en el contexto más amplio de la generación de variantes de malware.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.