Заражение генеративных ИИ вирусами

Аннотация

Данное исследование демонстрирует новый подход к тестированию границ безопасности модели Vision-Large Language Model (VLM/LLM), используя тестовый файл EICAR, встроенный в изображения JPEG. Мы успешно выполнили четыре различных протокола на нескольких платформах LLM, включая OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro и Anthropic Claude 3.5 Sonnet. Эксперименты подтвердили, что модифицированное изображение JPEG, содержащее подпись EICAR, может быть загружено, обработано и потенциально выполнено в виртуальных рабочих пространствах LLM. Основные результаты включают: 1) постоянную возможность маскировать строку EICAR в метаданных изображения без обнаружения, 2) успешное извлечение тестового файла с использованием манипуляций на основе Python в средах LLM, и 3) демонстрацию нескольких техник обфускации, включая кодирование base64 и обращение строки. Данное исследование расширяет "Правила взлома" Microsoft Research для оценки границ безопасности облачных генеративных ИИ и LLM, с особым вниманием на обработку файлов и возможности выполнения в контейнеризованных средах.

English

This study demonstrates a novel approach to testing the security boundaries of Vision-Large Language Model (VLM/ LLM) using the EICAR test file embedded within JPEG images. We successfully executed four distinct protocols across multiple LLM platforms, including OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro, and Anthropic Claude 3.5 Sonnet. The experiments validated that a modified JPEG containing the EICAR signature could be uploaded, manipulated, and potentially executed within LLM virtual workspaces. Key findings include: 1) consistent ability to mask the EICAR string in image metadata without detection, 2) successful extraction of the test file using Python-based manipulation within LLM environments, and 3) demonstration of multiple obfuscation techniques including base64 encoding and string reversal. This research extends Microsoft Research's "Penetration Testing Rules of Engagement" framework to evaluate cloud-based generative AI and LLM security boundaries, particularly focusing on file handling and execution capabilities within containerized environments.

Заражение генеративных ИИ вирусами

Infecting Generative AI With Viruses

Аннотация

Support