Hackphyr : Un agent LLM finement réglé local pour les environnements de sécurité réseau
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments
September 17, 2024
Auteurs: Maria Rigaki, Carlos Catania, Sebastian Garcia
cs.AI
Résumé
Les grands modèles de langage (LLM) ont montré un potentiel remarquable dans divers domaines, y compris la cybersécurité. L'utilisation de LLM basés sur le cloud commercial peut être indésirable en raison de préoccupations en matière de confidentialité, de coûts et de contraintes de connectivité réseau. Dans cet article, nous présentons Hackphyr, un LLM localement affiné à utiliser en tant qu'agent d'équipe rouge dans des environnements de sécurité réseau. Notre modèle affiné de 7 milliards de paramètres peut fonctionner sur une seule carte GPU et atteint des performances comparables à celles de modèles commerciaux beaucoup plus grands et plus puissants tels que GPT-4. Hackphyr surpasse clairement d'autres modèles, y compris GPT-3.5-turbo, et des bases telles que des agents Q-learning dans des scénarios complexes et inédits. Pour atteindre cette performance, nous avons généré un nouvel ensemble de données spécifique à la cybersécurité pour améliorer les capacités du modèle de base. Enfin, nous avons mené une analyse approfondie des comportements des agents qui fournit des informations sur les capacités de planification et les éventuels points faibles de ces agents, contribuant ainsi à une meilleure compréhension des agents basés sur les LLM dans les contextes de cybersécurité.
English
Large Language Models (LLMs) have shown remarkable potential across various
domains, including cybersecurity. Using commercial cloud-based LLMs may be
undesirable due to privacy concerns, costs, and network connectivity
constraints. In this paper, we present Hackphyr, a locally fine-tuned LLM to be
used as a red-team agent within network security environments. Our fine-tuned 7
billion parameter model can run on a single GPU card and achieves performance
comparable with much larger and more powerful commercial models such as GPT-4.
Hackphyr clearly outperforms other models, including GPT-3.5-turbo, and
baselines, such as Q-learning agents in complex, previously unseen scenarios.
To achieve this performance, we generated a new task-specific cybersecurity
dataset to enhance the base model's capabilities. Finally, we conducted a
comprehensive analysis of the agents' behaviors that provides insights into the
planning abilities and potential shortcomings of such agents, contributing to
the broader understanding of LLM-based agents in cybersecurity contexts