Rapport Technique de Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B
Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report
January 28, 2026
papers.authors: Zhuoran Yang, Ed Li, Jianliang He, Aman Priyanshu, Baturay Saglam, Paul Kassianik, Sajana Weerawardhena, Anu Vellore, Blaine Nelson, Neusha Javidnia, Arthur Goldblatt, Fraser Burch, Avi Zohary, Assaf Eisenman, Mahdi Sabbaghi, Supriti Vijay, Rahim Dharssi, Dhruv Kedia, Kojin Oshiba, Yaron Singer, Amin Karbasi
cs.AI
papers.abstract
Nous présentons Foundation-Sec-8B-Reasoning, le premier modèle de raisonnement natif open-source dédié à la cybersécurité. Construit sur notre modèle de base Foundation-Sec-8B précédemment publié (dérivé de Llama-3.1-8B-Base), ce modèle est entraîné via un processus en deux étapes combinant le fine-tuning supervisé (SFT) et l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR). Notre entraînement exploite des données de raisonnement propriétaires couvrant l'analyse cybersécurité, le suivi d'instructions et le raisonnement mathématique. L'évaluation sur 10 benchmarks de cybersécurité et 10 benchmarks généralistes démontre des performances compétitives avec des modèles nettement plus volumineux sur les tâches de cybersécurité, tout en maintenant de solides capacités générales. Le modèle montre une généralisation efficace sur les tâches de raisonnement multi-étapes et d'excellentes performances en matière de sécurité lorsqu'il est déployé avec des invites système et des garde-fous appropriés. Ce travail démontre que les modèles de raisonnement spécialisés dans un domaine peuvent atteindre des performances élevées sur des tâches spécialisées tout en conservant des capacités générales étendues. Nous publions le modèle à l'adresse suivante : https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
English
We present Foundation-Sec-8B-Reasoning, the first open-source native reasoning model for cybersecurity. Built upon our previously released Foundation-Sec-8B base model (derived from Llama-3.1-8B-Base), the model is trained through a two-stage process combining supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR). Our training leverages proprietary reasoning data spanning cybersecurity analysis, instruction-following, and mathematical reasoning. Evaluation across 10 cybersecurity benchmarks and 10 general-purpose benchmarks demonstrates performance competitive with significantly larger models on cybersecurity tasks while maintaining strong general capabilities. The model shows effective generalization on multi-hop reasoning tasks and strong safety performance when deployed with appropriate system prompts and guardrails. This work demonstrates that domain-specialized reasoning models can achieve strong performance on specialized tasks while maintaining broad general capabilities. We release the model publicly at https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.