LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models
July 12, 2025
Авторы: Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino
cs.AI
Аннотация
Крупные языковые модели (LLM) произвели революцию в разработке программного обеспечения и автоматической генерации кода. Вдохновленные этими достижениями, в данной статье исследуется возможность использования LLM для модификации исходного кода вредоносных программ с целью создания их вариантов. Мы представляем LLMalMorph, полуавтоматическую платформу, которая использует семантическое и синтаксическое понимание кода LLM для генерации новых вариантов вредоносного ПО. LLMalMorph извлекает информацию на уровне функций из исходного кода вредоносного ПО и применяет специально разработанные запросы в сочетании с стратегически определенными преобразованиями кода, чтобы направлять LLM в создании вариантов без необходимости ресурсоемкой тонкой настройки. Для оценки LLMalMorph мы собрали 10 разнообразных образцов вредоносного ПО для Windows, различающихся по типу, сложности и функциональности, и сгенерировали 618 вариантов. Наши тщательные эксперименты показывают, что возможно в некоторой степени снизить уровень обнаружения этих вариантов антивирусными движками, сохраняя при этом функциональность вредоносного ПО. Кроме того, несмотря на отсутствие оптимизации против машинного обучения (ML)-детекторов вредоносного ПО, несколько вариантов также достигли заметного уровня успеха атаки против ML-классификатора вредоносного ПО. Мы также обсуждаем ограничения текущих возможностей LLM в генерации вариантов вредоносного ПО из исходного кода и оцениваем, где эта новая технология находится в более широком контексте генерации вариантов вредоносного ПО.
English
Large Language Models (LLMs) have transformed software development and
automated code generation. Motivated by these advancements, this paper explores
the feasibility of LLMs in modifying malware source code to generate variants.
We introduce LLMalMorph, a semi-automated framework that leverages semantical
and syntactical code comprehension by LLMs to generate new malware variants.
LLMalMorph extracts function-level information from the malware source code and
employs custom-engineered prompts coupled with strategically defined code
transformations to guide the LLM in generating variants without
resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse
Windows malware samples of varying types, complexity and functionality and
generated 618 variants. Our thorough experiments demonstrate that it is
possible to reduce the detection rates of antivirus engines of these malware
variants to some extent while preserving malware functionalities. In addition,
despite not optimizing against any Machine Learning (ML)-based malware
detectors, several variants also achieved notable attack success rates against
an ML-based malware classifier. We also discuss the limitations of current LLM
capabilities in generating malware variants from source code and assess where
this emerging technology stands in the broader context of malware variant
generation.