Evaluación de los riesgos críticos de Amazon Nova Premier bajo el Marco de Seguridad para Modelos de Frontera
Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework
July 7, 2025
Autores: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI
Resumen
Nova Premier es el modelo base multimodal más avanzado de Amazon y un maestro para la destilación de modelos. Procesa texto, imágenes y vídeo con una ventana de contexto de un millón de tokens, lo que permite analizar grandes bases de código, documentos de 400 páginas y vídeos de 90 minutos en una sola instrucción. Presentamos la primera evaluación integral del perfil de riesgo crítico de Nova Premier bajo el Marco de Seguridad de Modelos de Frontera. Las evaluaciones se centran en tres dominios de alto riesgo: Químico, Biológico, Radiológico y Nuclear (QBRN), Operaciones Cibernéticas Ofensivas e I+D Automatizada de IA, y combinan benchmarks automatizados, ejercicios de red-teaming con expertos y estudios de mejora para determinar si el modelo supera los umbrales de lanzamiento. Resumimos nuestra metodología y reportamos los hallazgos principales. Con base en esta evaluación, concluimos que Nova Premier es seguro para su lanzamiento público, de acuerdo con los compromisos asumidos en la Cumbre de Seguridad de IA de París 2025. Continuaremos mejorando nuestros procesos de evaluación de seguridad y mitigación a medida que se identifiquen nuevos riesgos y capacidades asociados con los modelos de frontera.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher
for model distillation. It processes text, images, and video with a
one-million-token context window, enabling analysis of large codebases,
400-page documents, and 90-minute videos in a single prompt. We present the
first comprehensive evaluation of Nova Premier's critical risk profile under
the Frontier Model Safety Framework. Evaluations target three high-risk domains
-- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber
Operations, and Automated AI R&D -- and combine automated benchmarks, expert
red-teaming, and uplift studies to determine whether the model exceeds release
thresholds. We summarize our methodology and report core findings. Based on
this evaluation, we find that Nova Premier is safe for public release as per
our commitments made at the 2025 Paris AI Safety Summit. We will continue to
enhance our safety evaluation and mitigation pipelines as new risks and
capabilities associated with frontier models are identified.