Bewertung der kritischen Risiken von Amazons Nova Premier im Rahmen des Frontier Model Safety Frameworks

Zusammenfassung

Nova Premier ist Amazons leistungsstärkstes multimodales Basismodell und dient als Lehrer für die Modell-Destillation. Es verarbeitet Text, Bilder und Videos mit einem Kontextfenster von einer Million Tokens, wodurch die Analyse großer Codebasen, 400-seitiger Dokumente und 90-minütiger Videos in einer einzigen Eingabe ermöglicht wird. Wir präsentieren die erste umfassende Bewertung des kritischen Risikoprofils von Nova Premier im Rahmen des Frontier Model Safety Framework. Die Bewertungen konzentrieren sich auf drei Hochrisikobereiche – Chemische, Biologische, Radiologische & Nukleare (CBRN), Offensive Cyber-Operationen und Automatisierte KI-Entwicklung – und kombinieren automatisierte Benchmarks, Expertenteams für Red-Teaming und Uplift-Studien, um festzustellen, ob das Modell die Freigabeschwellen überschreitet. Wir fassen unsere Methodik zusammen und berichten über die zentralen Erkenntnisse. Basierend auf dieser Bewertung kommen wir zu dem Schluss, dass Nova Premier gemäß unseren Verpflichtungen auf dem Pariser KI-Sicherheitsgipfel 2025 sicher für die öffentliche Freigabe ist. Wir werden unsere Sicherheitsbewertungs- und Risikominderungsprozesse kontinuierlich verbessern, sobald neue Risiken und Fähigkeiten im Zusammenhang mit Frontier-Modellen identifiziert werden.

English

Nova Premier is Amazon's most capable multimodal foundation model and teacher for model distillation. It processes text, images, and video with a one-million-token context window, enabling analysis of large codebases, 400-page documents, and 90-minute videos in a single prompt. We present the first comprehensive evaluation of Nova Premier's critical risk profile under the Frontier Model Safety Framework. Evaluations target three high-risk domains -- Chemical, Biological, Radiological & Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D -- and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. Based on this evaluation, we find that Nova Premier is safe for public release as per our commitments made at the 2025 Paris AI Safety Summit. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.