Relatório Técnico do Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B

Resumo

Apresentamos o Foundation-Sec-8B-Reasoning, o primeiro modelo de raciocínio nativo de código aberto para cibersegurança. Construído com base no nosso modelo base Foundation-Sec-8B previamente lançado (derivado do Llama-3.1-8B-Base), o modelo é treinado através de um processo de duas etapas que combina *fine-tuning* supervisionado (SFT) e aprendizado por reforço com recompensas verificáveis (RLVR). O nosso treinamento aproveita dados proprietários de raciocínio que abrangem análise de cibersegurança, seguimento de instruções e raciocínio matemático. A avaliação em 10 *benchmarks* de cibersegurança e 10 *benchmarks* de uso geral demonstra um desempenho competitivo com modelos significativamente maiores em tarefas de cibersegurança, mantendo ao mesmo tempo fortes capacidades gerais. O modelo mostra uma generalização eficaz em tarefas de raciocínio multi-etapas e um forte desempenho de segurança quando implantado com *prompts* de sistema e salvaguardas apropriados. Este trabalho demonstra que modelos de raciocínio especializados num domínio podem alcançar um desempenho sólido em tarefas especializadas, mantendo capacidades gerais abrangentes. Disponibilizamos o modelo publicamente em https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.

English

We present Foundation-Sec-8B-Reasoning, the first open-source native reasoning model for cybersecurity. Built upon our previously released Foundation-Sec-8B base model (derived from Llama-3.1-8B-Base), the model is trained through a two-stage process combining supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR). Our training leverages proprietary reasoning data spanning cybersecurity analysis, instruction-following, and mathematical reasoning. Evaluation across 10 cybersecurity benchmarks and 10 general-purpose benchmarks demonstrates performance competitive with significantly larger models on cybersecurity tasks while maintaining strong general capabilities. The model shows effective generalization on multi-hop reasoning tasks and strong safety performance when deployed with appropriate system prompts and guardrails. This work demonstrates that domain-specialized reasoning models can achieve strong performance on specialized tasks while maintaining broad general capabilities. We release the model publicly at https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.

Relatório Técnico do Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B

Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

Resumo

Support