Технический отчет Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B

Аннотация

Мы представляем Foundation-Sec-8B-Reasoning — первую открытую модель с нативными способностями к логическому выводу в области кибербезопасности. Модель построена на основе нашей ранее выпущенной базовой модели Foundation-Sec-8B (производной от Llama-3.1-8B-Base) и обучена в два этапа, сочетающих контролируемое тонкое настройка (SFT) и обучение с подкреплением на основе верифицируемых вознаграждений (RLVR). Наше обучение использует проприетарные данные для логического вывода, охватывающие анализ кибербезопасности, следование инструкциям и математические рассуждения. Оценка на 10 специализированных тестах по кибербезопасности и 10 общецелевых тестах демонстрирует конкурентоспособную с значительно более крупными моделями производительность в задачах кибербезопасности при сохранении сильных общих способностей. Модель показывает эффективное обобщение на задачах многошагового логического вывода и высокие показатели безопасности при развертывании с соответствующими системными промптами и защитными механизмами. Данная работа демонстрирует, что специализированные модели для логического вывода могут достигать высокой производительности в узкоспециализированных задачах, сохраняя при этом широкие общие возможности. Мы публикуем модель по адресу: https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.

English

We present Foundation-Sec-8B-Reasoning, the first open-source native reasoning model for cybersecurity. Built upon our previously released Foundation-Sec-8B base model (derived from Llama-3.1-8B-Base), the model is trained through a two-stage process combining supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR). Our training leverages proprietary reasoning data spanning cybersecurity analysis, instruction-following, and mathematical reasoning. Evaluation across 10 cybersecurity benchmarks and 10 general-purpose benchmarks demonstrates performance competitive with significantly larger models on cybersecurity tasks while maintaining strong general capabilities. The model shows effective generalization on multi-hop reasoning tasks and strong safety performance when deployed with appropriate system prompts and guardrails. This work demonstrates that domain-specialized reasoning models can achieve strong performance on specialized tasks while maintaining broad general capabilities. We release the model publicly at https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.

Технический отчет Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B

Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

Аннотация

Support