ChatPaper.aiChatPaper

Évaluation des risques critiques de Nova Premier d'Amazon dans le cadre du modèle de sécurité des systèmes frontaliers

Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework

July 7, 2025
papers.authors: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI

papers.abstract

Nova Premier est le modèle de fondation multimodal le plus performant d'Amazon et un enseignant pour la distillation de modèles. Il traite le texte, les images et les vidéos avec une fenêtre contextuelle d'un million de tokens, permettant l'analyse de vastes bases de code, de documents de 400 pages et de vidéos de 90 minutes en une seule requête. Nous présentons la première évaluation complète du profil de risque critique de Nova Premier dans le cadre du Frontier Model Safety Framework. Les évaluations ciblent trois domaines à haut risque — Chimique, Biologique, Radiologique et Nucléaire (CBRN), les opérations cyber offensives et la R&D automatisée en IA — et combinent des benchmarks automatisés, des exercices de red-teaming par des experts et des études d'impact pour déterminer si le modèle dépasse les seuils de publication. Nous résumons notre méthodologie et rapportons les principales conclusions. Sur la base de cette évaluation, nous concluons que Nova Premier est sûr pour une publication publique conformément à nos engagements pris lors du Sommet sur la sécurité de l'IA de Paris en 2025. Nous continuerons à améliorer nos pipelines d'évaluation de la sécurité et de mitigation à mesure que de nouveaux risques et capacités associés aux modèles de pointe seront identifiés.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.
PDF31July 10, 2025