LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей

Аннотация

Крупные языковые модели (LLM) произвели революцию в разработке программного обеспечения и автоматической генерации кода. Вдохновленные этими достижениями, в данной статье исследуется возможность использования LLM для модификации исходного кода вредоносных программ с целью создания их вариантов. Мы представляем LLMalMorph, полуавтоматическую платформу, которая использует семантическое и синтаксическое понимание кода LLM для генерации новых вариантов вредоносного ПО. LLMalMorph извлекает информацию на уровне функций из исходного кода вредоносного ПО и применяет специально разработанные запросы в сочетании с стратегически определенными преобразованиями кода, чтобы направлять LLM в создании вариантов без необходимости ресурсоемкой тонкой настройки. Для оценки LLMalMorph мы собрали 10 разнообразных образцов вредоносного ПО для Windows, различающихся по типу, сложности и функциональности, и сгенерировали 618 вариантов. Наши тщательные эксперименты показывают, что возможно в некоторой степени снизить уровень обнаружения этих вариантов антивирусными движками, сохраняя при этом функциональность вредоносного ПО. Кроме того, несмотря на отсутствие оптимизации против машинного обучения (ML)-детекторов вредоносного ПО, несколько вариантов также достигли заметного уровня успеха атаки против ML-классификатора вредоносного ПО. Мы также обсуждаем ограничения текущих возможностей LLM в генерации вариантов вредоносного ПО из исходного кода и оцениваем, где эта новая технология находится в более широком контексте генерации вариантов вредоносного ПО.

English

Large Language Models (LLMs) have transformed software development and automated code generation. Motivated by these advancements, this paper explores the feasibility of LLMs in modifying malware source code to generate variants. We introduce LLMalMorph, a semi-automated framework that leverages semantical and syntactical code comprehension by LLMs to generate new malware variants. LLMalMorph extracts function-level information from the malware source code and employs custom-engineered prompts coupled with strategically defined code transformations to guide the LLM in generating variants without resource-intensive fine-tuning. To evaluate LLMalMorph, we collected 10 diverse Windows malware samples of varying types, complexity and functionality and generated 618 variants. Our thorough experiments demonstrate that it is possible to reduce the detection rates of antivirus engines of these malware variants to some extent while preserving malware functionalities. In addition, despite not optimizing against any Machine Learning (ML)-based malware detectors, several variants also achieved notable attack success rates against an ML-based malware classifier. We also discuss the limitations of current LLM capabilities in generating malware variants from source code and assess where this emerging technology stands in the broader context of malware variant generation.

LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей

LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Аннотация

Support