ChatPaper.aiChatPaper

Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technischer Bericht

Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

January 28, 2026
papers.authors: Zhuoran Yang, Ed Li, Jianliang He, Aman Priyanshu, Baturay Saglam, Paul Kassianik, Sajana Weerawardhena, Anu Vellore, Blaine Nelson, Neusha Javidnia, Arthur Goldblatt, Fraser Burch, Avi Zohary, Assaf Eisenman, Mahdi Sabbaghi, Supriti Vijay, Rahim Dharssi, Dhruv Kedia, Kojin Oshiba, Yaron Singer, Amin Karbasi
cs.AI

papers.abstract

Wir stellen Foundation-Sec-8B-Reasoning vor, das erste quelloffene native Reasoning-Modell für Cybersicherheit. Das Modell baut auf unserem zuvor veröffentlichten Foundation-Sec-8B-Basismodell (abgeleitet von Llama-3.1-8B-Base) auf und wird durch einen zweistufigen Prozess trainiert, der Supervised Fine-Tuning (SFT) und Reinforcement Learning from Verifiable Rewards (RLVR) kombiniert. Unser Training nutzt proprietäre Reasoning-Daten aus den Bereichen Cybersicherheitsanalyse, Befolgung von Anweisungen und mathematisches Reasoning. Die Evaluierung über 10 Cybersicherheits-Benchmarks und 10 allgemeine Benchmarks hinweg zeigt eine Leistung, die auf Cybersicherheitsaufgaben mit deutlich größeren Modellen wettbewerbsfähig ist, während gleichzeitig starke allgemeine Fähigkeiten erhalten bleiben. Das Modell zeigt eine effektive Generalisierung bei Multi-Hop-Reasoning-Aufgaben und eine starke Sicherheitsleistung, wenn es mit geeigneten System-Prompts und Guardrails eingesetzt wird. Diese Arbeit demonstriert, dass domainspezifische Reasoning-Modelle eine hohe Leistung bei spezialisierten Aufgaben erzielen können, während sie breite allgemeine Fähigkeiten beibehalten. Wir veröffentlichen das Modell unter https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
English
We present Foundation-Sec-8B-Reasoning, the first open-source native reasoning model for cybersecurity. Built upon our previously released Foundation-Sec-8B base model (derived from Llama-3.1-8B-Base), the model is trained through a two-stage process combining supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR). Our training leverages proprietary reasoning data spanning cybersecurity analysis, instruction-following, and mathematical reasoning. Evaluation across 10 cybersecurity benchmarks and 10 general-purpose benchmarks demonstrates performance competitive with significantly larger models on cybersecurity tasks while maintaining strong general capabilities. The model shows effective generalization on multi-hop reasoning tasks and strong safety performance when deployed with appropriate system prompts and guardrails. This work demonstrates that domain-specialized reasoning models can achieve strong performance on specialized tasks while maintaining broad general capabilities. We release the model publicly at https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
PDF83January 31, 2026