ChatPaper.aiChatPaper

Оценка критических рисков Amazon Nova Premier в рамках Системы безопасности моделей Frontier

Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework

July 7, 2025
Авторы: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI

Аннотация

Nova Premier — это самая мощная мультимодальная базовая модель Amazon и инструмент для дистилляции моделей. Она обрабатывает текст, изображения и видео с контекстным окном в один миллион токенов, что позволяет анализировать крупные кодовые базы, 400-страничные документы и 90-минутные видео в рамках одного запроса. Мы представляем первое всестороннее исследование критического профиля рисков Nova Premier в рамках Системы безопасности передовых моделей (Frontier Model Safety Framework). Оценка охватывает три высокорисковые области — химические, биологические, радиологические и ядерные угрозы (CBRN), наступательные кибероперации и автоматизированные исследования и разработки в области ИИ — и сочетает автоматизированные тесты, экспертные атаки "красной команды" и исследования повышения эффективности, чтобы определить, превышает ли модель пороговые значения для выпуска. Мы излагаем нашу методологию и сообщаем ключевые результаты. На основе этой оценки мы делаем вывод, что Nova Premier безопасна для публичного выпуска в соответствии с обязательствами, принятыми на Парижском саммите по безопасности ИИ в 2025 году. Мы продолжим совершенствовать наши процессы оценки безопасности и снижения рисков по мере выявления новых угроз и возможностей, связанных с передовыми моделями.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.
PDF31July 10, 2025