Avaliando os Riscos Críticos do Amazon Nova Premier sob o Framework de Segurança de Modelos de Fronteira
Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework
July 7, 2025
Autores: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI
Resumo
A Nova Premier é o modelo de base multimodal mais avançado da Amazon e serve como referência para a destilação de modelos. Ela processa texto, imagens e vídeos com uma janela de contexto de um milhão de tokens, permitindo a análise de grandes bases de código, documentos de 400 páginas e vídeos de 90 minutos em um único prompt. Apresentamos a primeira avaliação abrangente do perfil de risco crítico da Nova Premier sob o Framework de Segurança de Modelos de Fronteira. As avaliações focam em três domínios de alto risco — Químico, Biológico, Radiológico e Nuclear (QBRN), Operações Cibernéticas Ofensivas e Desenvolvimento Automatizado de IA — e combinam benchmarks automatizados, red-teaming com especialistas e estudos de impacto para determinar se o modelo excede os limites de lançamento. Resumimos nossa metodologia e relatamos as principais descobertas. Com base nessa avaliação, concluímos que a Nova Premier é segura para lançamento público, conforme nossos compromissos assumidos na Cúpula de Segurança de IA de Paris em 2025. Continuaremos a aprimorar nossos pipelines de avaliação de segurança e mitigação à medida que novos riscos e capacidades associados a modelos de fronteira forem identificados.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher
for model distillation. It processes text, images, and video with a
one-million-token context window, enabling analysis of large codebases,
400-page documents, and 90-minute videos in a single prompt. We present the
first comprehensive evaluation of Nova Premier's critical risk profile under
the Frontier Model Safety Framework. Evaluations target three high-risk domains
-- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber
Operations, and Automated AI R&D -- and combine automated benchmarks, expert
red-teaming, and uplift studies to determine whether the model exceeds release
thresholds. We summarize our methodology and report core findings. Based on
this evaluation, we find that Nova Premier is safe for public release as per
our commitments made at the 2025 Paris AI Safety Summit. We will continue to
enhance our safety evaluation and mitigation pipelines as new risks and
capabilities associated with frontier models are identified.