Evaluación de los riesgos críticos de Amazon Nova Premier bajo el Marco de Seguridad para Modelos de Frontera

Resumen

Nova Premier es el modelo base multimodal más avanzado de Amazon y un maestro para la destilación de modelos. Procesa texto, imágenes y vídeo con una ventana de contexto de un millón de tokens, lo que permite analizar grandes bases de código, documentos de 400 páginas y vídeos de 90 minutos en una sola instrucción. Presentamos la primera evaluación integral del perfil de riesgo crítico de Nova Premier bajo el Marco de Seguridad de Modelos de Frontera. Las evaluaciones se centran en tres dominios de alto riesgo: Químico, Biológico, Radiológico y Nuclear (QBRN), Operaciones Cibernéticas Ofensivas e I+D Automatizada de IA, y combinan benchmarks automatizados, ejercicios de red-teaming con expertos y estudios de mejora para determinar si el modelo supera los umbrales de lanzamiento. Resumimos nuestra metodología y reportamos los hallazgos principales. Con base en esta evaluación, concluimos que Nova Premier es seguro para su lanzamiento público, de acuerdo con los compromisos asumidos en la Cumbre de Seguridad de IA de París 2025. Continuaremos mejorando nuestros procesos de evaluación de seguridad y mitigación a medida que se identifiquen nuevos riesgos y capacidades asociados con los modelos de frontera.

English

Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.