ChatPaper.aiChatPaper

Valutazione dei Rischi Critici di Amazon Nova Premier nel Contesto del Framework di Sicurezza per Modelli di Frontiera

Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework

July 7, 2025
Autori: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI

Abstract

Nova Premier è il modello fondazionale multimodale più avanzato di Amazon e funge da insegnante per la distillazione di modelli. Elabora testo, immagini e video con una finestra contestuale di un milione di token, consentendo l'analisi di grandi codebase, documenti di 400 pagine e video di 90 minuti in un singolo prompt. Presentiamo la prima valutazione completa del profilo di rischio critico di Nova Premier nell'ambito del Frontier Model Safety Framework. Le valutazioni si concentrano su tre domini ad alto rischio: Chimico, Biologico, Radiologico e Nucleare (CBRN), Operazioni Informatiche Offensive e Sviluppo Automatizzato dell'IA, combinando benchmark automatizzati, red-teaming di esperti e studi di miglioramento per determinare se il modello supera le soglie di rilascio. Riassumiamo la nostra metodologia e riportiamo i risultati principali. Sulla base di questa valutazione, riteniamo che Nova Premier sia sicuro per il rilascio pubblico, in linea con gli impegni assunti al Vertice sulla Sicurezza dell'IA di Parigi del 2025. Continueremo a migliorare le nostre pipeline di valutazione e mitigazione della sicurezza man mano che vengono identificati nuovi rischi e capacità associati ai modelli di frontiera.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.
PDF41July 10, 2025