ChatPaper.aiChatPaper

Het evalueren van de kritieke risico's van Amazon's Nova Premier onder het Frontier Model Safety Framework

Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework

July 7, 2025
Auteurs: Satyapriya Krishna, Ninareh Mehrabi, Abhinav Mohanty, Matteo Memelli, Vincent Ponzo, Payal Motwani, Rahul Gupta
cs.AI

Samenvatting

Nova Premier is Amazons meest geavanceerde multimodale basis- en leraarmodel voor modeldistillatie. Het verwerkt tekst, afbeeldingen en video met een contextvenster van één miljoen tokens, waardoor het grote codebases, documenten van 400 pagina's en video's van 90 minuten in één prompt kan analyseren. We presenteren de eerste uitgebreide evaluatie van het kritieke risicoprofiel van Nova Premier binnen het Frontier Model Safety Framework. De evaluaties richten zich op drie hoogrisicodomeinen — Chemisch, Biologisch, Radiologisch & Nucleair (CBRN), Offensieve Cyberoperaties en Geautomatiseerde AI-ontwikkeling — en combineren geautomatiseerde benchmarks, expert-red-teaming en uplift-studies om te bepalen of het model de vrijgavecriteria overschrijdt. We vatten onze methodologie samen en presenteren de belangrijkste bevindingen. Op basis van deze evaluatie concluderen we dat Nova Premier veilig is voor publieke vrijgave, in lijn met onze toezeggingen tijdens de AI-veiligheidstop van Parijs in 2025. We blijven onze veiligheidsevaluatie- en mitigatieprocessen verbeteren naarmate nieuwe risico's en mogelijkheden van frontier-modellen worden geïdentificeerd.
English
Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.
PDF51July 10, 2025